Робот справился с незнакомой задачей — и удивил собственных создателей. Physical Intelligence представила модель π0.7

π0.7 — ИИ-модель, которая управляет роботами. Она приготовила батат в аэрогриле, хотя в обучающих данных нашлось лишь два похожих эпизода. Стартап говорит о первых признаках обобщения в робототехнике.

16 апреля робототехнический стартап Physical Intelligence из Сан-Франциско опубликовал исследование, в котором заявляет: его новая модель π0.7 способна управлять роботами в задачах, которых не было в обучающих данных. Компания называет это compositional generalization — композиционным обобщением: модель комбинирует навыки, усвоенные в разных контекстах, и применяет их к незнакомым ситуациям. До сих пор стандартный подход в робототехнике работал иначе: под каждую задачу собирали данные, обучали отдельную модель — и так заново для каждого нового действия.

Самый яркий пример из статьи — аэрогриль. Исследователи попросили робота приготовить в нем батат, хотя в обучающих данных нашлось лишь два отдаленно похожих эпизода: в одном другой робот просто закрывал аэрогриль, в другом — из открытого датасета — еще один робот помещал внутрь пластиковую бутылку. Модель каким-то образом соединила эти фрагменты с данными из предобучения на веб-контенте и сформировала рабочее понимание того, как устройство работает.

Без каких-либо подсказок робот справился с задачей частично — сделал несколько попыток, но не довел до конца. А вот с пошаговыми голосовыми инструкциями — когда человек объяснял действия так, как объяснял бы новому сотруднику — робот выполнил задачу успешно. Это важная деталь: она означает, что роботов потенциально можно обучать новым задачам прямо на месте, в реальном времени, без сбора дополнительных данных и переобучения модели.

«Очень сложно отследить, откуда модель берет знания и где она справится, а где нет», — говорит Люси Ши, исследователь Physical Intelligence и аспирантка Стэнфорда. Сооснователь компании и профессор Калифорнийского университета в Беркли Сергей Левин проводит аналогию с языковыми моделями: «Как только модель пересекает порог, где перестает делать только то, на чем ее обучали, и начинает комбинировать навыки по-новому — поле возможностей растет быстрее, чем объем данных. Именно это мы уже видели в других областях ИИ — в работе с текстом и изображениями».

Исследователи Physical Intelligence не скрывают ограничений модели — и в некоторых случаях прямо указывают на собственные ошибки. Люси Ши рассказывает, что в раннем эксперименте с аэрогрилем робот справлялся лишь в 5% случаев. После того как команда потратила около получаса на уточнение формулировок задачи, успешность выросла до 95%. «Иногда проблема не в роботе и не в модели, — говорит Ши. — Проблема в нас. В том, что мы плохо формулируем запрос».

Модель пока не способна выполнять сложные многошаговые задачи по одной общей команде. «Нельзя сказать: "Сделай мне тост", — объясняет Левин. — Но если провести робота по шагам — "открой эту часть, нажми эту кнопку, сделай вот так" — он справляется довольно хорошо».

При этом π0.7 — универсальная модель на все задачи, а не специфическая под каждую. Компания сравнила π0.7 с собственными предыдущими моделями, каждая из которых обучалась под конкретную задачу: приготовление кофе, складывание белья, сборка коробок. Универсальная модель показала сопоставимый, а в некоторых случаях даже более высокий результат. Стандартных внешних бенчмарков для робототехники пока не существует, поэтому проверить эти результаты со стороны сложно — команда это признает.

Отдельно стоит упомянуть перенос навыков между роботами. В обучающих данных складывание белья выполнял один робот — небольшой, с определенной конфигурацией рук. Исследователи попросили π0.7 выполнить ту же задачу на совершенно другом роботе — промышленной двурукой системе UR5e с тяжелыми манипуляторами и менее точными захватами. Примеров складывания белья на этом роботе в данных не было вообще. Важно понимать: π0.7 — это не конкретный робот, а ИИ-модель, которая может управлять разными машинами. И здесь ей пришлось не просто повторить заученные движения, а выработать совершенно другую стратегию — потому что роботы существенно различаются по размеру, архитектуре и устройству манипуляторов. Тем не менее π0.7 справилась примерно так же, как живые операторы в аналогичной ситуации. Эти специалисты провели сотни часов за управлением исходным роботом, но когда впервые сели за UR5e — тоже спотыкались. Модель показала сопоставимый результат.

Пожалуй, самое примечательное — не конкретная демонстрация, а реакция самих исследователей. «Обычно, когда я точно знаю, что есть в данных, я могу предсказать, что модель сумеет сделать, — говорит Ашвин Балакришна, исследователь Physical Intelligence. — Меня редко что-то удивляет. Но последние несколько месяцев — первый раз, когда я по-настоящему удивлен. Я просто купил набор шестеренок и спросил робота: "Можешь повернуть эту шестеренку?" И он просто сделал это».

Physical Intelligence основана в 2024 году в Сан-Франциско. За два года компания собрала команду, которую многие в индустрии считают сильнейшей в области робототехнического ИИ. Среди сооснователей — Сергей Левин (профессор Калифорнийского университета в Беркли, специалист по обучению с подкреплением — методу, при котором ИИ учится через пробы и ошибки, получая «награду» за правильные действия), Кэрол Хаусман (CEO, бывший исследователь робототехники в Google), Челси Финн (профессор Стэнфордского университета), Брайан Ихтер и Лачи Грум. Последний — один из самых известных ранних инвесторов Кремниевой долины: он одним из первых вложился в Figma, Notion и Ramp. По словам TechCrunch, именно репутация Грума помогла стартапу привлечь деньги крупных фондов — даже без обещаний конкретных сроков коммерциализации.

На сегодняшний день компания привлекла более $1 млрд: $400 млн в ноябре 2024 года и $600 млн в ноябре 2025-го при оценке $5.6 млрд. Сейчас, по данным TechCrunch, идут переговоры о новом раунде, который может почти удвоить оценку — до $11 млрд.

При этом в компании подчеркивают: π0.7 — это исследовательский проект, а не готовый коммерческий продукт. В публикации, описывающей модель, формулировки осторожные: «ранние признаки» обобщения, «первые демонстрации» новых возможностей. На прямой вопрос о сроках вывода подобной системы в реальную эксплуатацию Левин отказался строить прогнозы: «Думаю, есть основания для оптимизма, и всё движется быстрее, чем я ожидал пару лет назад. Но ответить на этот вопрос мне очень сложно».

Левин проводит параллель с моментом, когда исследователи впервые увидели, как GPT-2 генерирует историю про единорогов в Андах: «Откуда модель узнала про единорогов в Перу? Это такая странная комбинация. И я думаю, что видеть подобное в робототехнике — это что-то особенное». Критики, впрочем, укажут на очевидную асимметрию: языковые модели учились на всем интернете, а у роботов такого объема данных нет. Левин ожидает скепсис с другой стороны: «Критика, которую всегда можно предъявить любой демонстрации обобщения в робототехнике, — задачи скучные. Робот не делает сальто». Но именно в этом, по словам ученого, и суть: обобщение всегда будет выглядеть менее эффектно, чем отрепетированный трюк, — зато оно значительно полезнее.

Робот справился с незнакомой задачей — и удивил собственных создателей. Physical Intelligence представила модель π0.7

Комментарии (0)

Комментарии (0)