Сборка AI
Редакция проекта
Редакция проекта
24 апр. в 05:51
21
Новость

Робопес Spot читает манометры и находит утечки. Что умеет новая ИИ-модель Google DeepMind

Обсудить
Робопес Spot читает манометры и находит утечки. Что умеет новая ИИ-модель Google DeepMind
Новая модель Gemini Robotics-ER 1.6 подняла точность считывания приборов с 23% до 98%. Boston Dynamics уже интегрирует ее в своего робота Spot для инспекции заводов и складов.

14 апреля Google DeepMind представила Gemini Robotics-ER 1.6 — ИИ-модель, которая выступает как центр управления для робота: планирует действия, анализирует окружение и принимает решения. Модель пришла на смену предыдущей версии (ER 1.5) и значительно превосходит ее по возможностям. Она предназначена для так называемого embodied reasoning (дословно — «воплощенного мышления») — способности ИИ рассуждать о физическом мире, а не только обрабатывать текст или изображения.

Ключевое нововведение — считывание показаний аналоговых приборов (манометров, термометров), а также интерпретация информации со смотровых стекол, через которые видно уровень жидкости в емкостях. Задача сложнее, чем может показаться: модель должна одновременно различать стрелки, деления, уровни жидкости, границы емкостей и надписи, а затем соотнести всё это между собой, чтобы выдать точное значение. В предыдущей версии (ER 1.5) точность считывания составляла 23%. Базовая модель Gemini 3.0 Flash справлялась на 67%. Gemini Robotics-ER 1.6 достигает 98% — благодаря технологии agentic vision, впервые представленной в Gemini 3.0 Flash в январе 2026 года. Работает это так: модель одновременно анализирует изображение и пишет код для его обработки, создавая «визуальный черновик»: промежуточные шаги, на которых она увеличивает отдельные участки изображения, отмечает ключевые элементы точками и вычисляет пропорции между ними.

Даже без agentic vision модель показывает 86% точности на приборах за счет развитого пространственного мышления. Она умеет указывать на конкретные элементы изображения, считать объекты, определять наиболее важные детали. В одном из тестов Google DeepMind модель правильно посчитала молотки, ножницы, кисти, плоскогубцы и садовый инвентарь на фотографии с лежащими вперемешку инструментами. Предыдущая версия ошиблась в количестве молотков и кистей, не заметила ножницы и «увидела» тачку, которой на изображении не было — то есть галлюцинировала. Впрочем, даже с учетом прогресса, модель по-прежнему далека от человеческого уровня восприятия окружения.

Еще одно улучшение — multi-view reasoning: модель может работать с несколькими камерами одновременно и объединять картинку с разных ракурсов в единое понимание пространства. Это особенно важно для роботов, у которых камеры расположены на корпусе, на запястьях манипуляторов и над рабочей зоной.

Навык считывания приборов появился неслучайно — эта задача выросла из партнерства Google DeepMind с Boston Dynamics. Boston Dynamics активно тестирует роботов — как четвероногих, так и гуманоидных — на самых разных промышленных площадках, включая автомобильные заводы материнской компании Hyundai Motor Group. Четвероногий Spot уже работает как мобильный инспектор: обходит цеха и склады, фотографирует приборы — а Gemini Robotics-ER 1.6 интерпретирует снимки. Марко да Силва, вице-президент и генеральный менеджер направления Spot в Boston Dynamics, отмечает: «Такие возможности, как считывание приборов и более глубокое понимание задач, позволят Spot видеть, понимать и реагировать на реальные проблемы полностью автономно».

Google DeepMind называет Gemini Robotics-ER 1.6 своей «самой безопасной робототехнической моделью на сегодня». Модель лучше предшественниц соблюдает инструкции по безопасному обращению с объектами, например, принимает более осторожные решения при работе с жидкостями или тяжелыми предметами, а также точнее оценивает риск того, что человек рядом может получить травму. Например, в одном из тестовых сценариев модель успешно распознала опасность ситуации, в которой маленький ребенок засовывает предмет в электрическую розетку.

Модель уже доступна разработчикам через Gemini API и Google AI Studio.

До сих пор роботы показывали наибольшую эффективность в роли узкоспециализированных машин: на заводских конвейерах, где одна и та же операция повторяется тысячи раз, или на складах, где маршруты и движения заранее просчитаны до сантиметра. В обоих случаях среда контролируема и предсказуема: робот не принимает решений, а выполняет программу. Google и Boston Dynamics делают ставку на другое: робот, который может работать там, где условия меняются, — самостоятельно ориентироваться, интерпретировать увиденное и реагировать. Gemini Robotics-ER 1.6 — шаг в эту сторону. Но чем свободнее робот действует, тем выше цена ошибки — и тем важнее, чтобы модель, которая им управляет, действительно работала так, как обещано.

Источник:ArsTechnica

Пока нет комментариев. Будьте первым!