«Агентний зір» Gemini: Google оновив роботу ШІ з відео та фото

Як інформує «Перший Новинний» із посиланням на офіційний блог компанії Google, розробники кардинально змінили фундаментальний принцип взаємодії моделі Gemini 3 Flash із візуальним контентом.

Зокрема, якщо раніше штучний інтелект (ШІ) сприймав картинку як єдине ціле та формував відповіді на основі загального візуального аналізу, то тепер він працює за моделлю активного дослідника. Gemini 3 Flash застосовує когнітивний цикл «думати — діяти — спостерігати», самостійно визначаючи послідовність операцій, необхідних для глибшого розуміння кожної сцени.

У практичному вимірі цей процес виглядає досить вражаюче. Коли на зображенні присутні дрібні чи ледь помітні деталі, система не намагається вгадати їхнє значення. Замість цього вона генерує та запускає спеціальний програмний код для збільшення конкретного фрагмента, обрізки потрібної зони або створення розмітки об’єктів. Наприклад, під час підрахунку предметів на складному фоні Gemini 3 Flash спочатку виокремлює кожен із них рамкою, присвоює порядковий номер і лише після цього видає фінальний результат. Такий багатокроковий підхід дозволяє суттєво мінімізувати кількість помилок, які раніше виникали через так звані візуальні галюцинації ШІ.

Значного прогресу було досягнуто і в роботі з інфографікою, складними таблицями та графіками. Тепер модель відмовилася від інтерпретації даних «на око». Вона витягує необхідну інформацію та здійснює реальні математичні обчислення за допомогою коду. Завдяки цьому відповіді стали точнішими, а результати піддаються верифікації, що має критичне значення для бізнес-аналітики, освітнього процесу та професійної підготовки звітів.

За офіційними даними Google, впровадження «агентного зору» дозволило підвищити якість виконання «візуальних завдань» на 5–10%. Це оновлення вже інтегроване в AI Studio, Vertex AI, а також доступне користувачам мобільного застосунку Gemini 3 Flash у спеціальному режимі Thinking. Фактично розробники перетворили нейромережу на повноцінного візуального агента, який не просто пасивно споглядає зображення, а здійснює з ним активну інтелектуальну роботу.

Додатково варто зауважити, що подібна технологія відкриває шлях до автоматизації складних процесів, як-от аналіз медичних знімків або супутникових карт, де кожна дрібна деталь може змінити загальний висновок. Здатність ШІ самостійно «користуватися лупою» та перевіряти себе через код робить Gemini 3 Flash одним із найнадійніших інструментів у своєму класі.

Раніше ми писали про те, що OpenAI анонсувала інноваційний інструмент ШІ Prism для написання наукових робіт.

Перегляди публікаціі: 148

Що нового?

У Google розповіли про переваги оновленого «агентного зору» ШІ-моделі Gemini (ВІДЕО)

Схожі публікації