Модель пока не способна самостоятельно выполнять сложные многошаговые задачи (Фото: Physical Intelligence)

Различные навыки. Стартап из США создал мозг для роботов, который умеет выполнять незнакомые задачи

Стартап Physical Intelligence заявил, что их новая модель π0.7 может управлять роботами для выполнения задач, которым их не обучали, сочетая уже известные навыки и работая по простым словесным инструкциям.

Об этом пишет издание TechCrunch.

Двухлетняя компания из Сан-Франциско обнародовала исследование, в котором говорится о способности модели к так называемой комбинированной обобщенности. Это означает, что система может сочетать различные навыки, полученные в других ситуациях, и применять их к новым задачам. Ранее роботов обычно обучали отдельно под каждое действие, фактически заставляя запоминать конкретные сценарии.

Один из основателей компании Сергей Левин объясняет, что после перехода этого порога модель начинает использовать знания по-новому, и ее возможности растут быстрее, чем объем данных. Подобный эффект уже наблюдали в сфере языковых и визуальных моделей.

Показательным примером стал эксперимент с аэрофритюрницей, которую модель почти не видела во время обучения. В данных было только два эпизода: в одном робот просто закрыл устройство, в другом — положил туда пластиковую бутылку по инструкции. Несмотря на это, система смогла понять принцип работы прибора. Без подсказок она частично справилась с заданием приготовить батат, а после пошаговых устных инструкций выполнила его успешно.

Исследовательница Люси Ши отмечает, что сложно точно определить, откуда именно модель берет знания и где она может ошибиться. В то же время она подчеркивает, что иногда проблема не в модели, а в том, как люди формулируют задачу. По ее словам, после получаса уточнения инструкций уровень успеха в одном из экспериментов вырос с 5% до 95%.

Модель пока не способна самостоятельно выполнять сложные многошаговые задачи по одной общей команде. Например, она не сможет сама «сделать тост», но хорошо работает, если объяснять каждый шаг отдельно.

Из-за отсутствия общепринятых стандартов в робототехнике проверить результаты независимо сложно. Поэтому компания сравнивала π0.7 со своими предыдущими специализированными моделями и заявляет, что новая система показывает подобные результаты в различных задачах, в частности во время приготовления кофе, складывания белья и коробок.

Исследователи признают, что результаты их удивили. Один из ученых Ашвин Балакришна говорит, что раньше мог примерно предсказать возможности модели, зная ее данные, но последние месяцы стали исключением. Он привел пример, когда случайно купил набор шестеренок и попросил робота их вращать — и тот справился.

Левин сравнивает это с ранними примерами работы языковых моделей, когда они генерировали неожиданные сочетания знаний. Он считает, что подобный эффект в робототехнике особенно важен.

В то же время критики отмечают, что в отличие от языковых моделей, которые обучались на большом объеме интернет-данных, роботы имеют значительно меньше информации. Левин отвечает, что такие замечания часто касаются не сложности задач, а их зрелищности, но реальная ценность заключается именно в способности к обобщению, а не в эффектных трюках.

В самой работе модель описывают осторожно, как демонстрирующую лишь первые признаки новых возможностей. Это исследовательский результат, а не готовый продукт. Когда технология будет готова к реальному использованию, в компании не прогнозируют, хотя отмечают, что прогресс происходит быстрее, чем ожидалось несколько лет назад.

Physical Intelligence уже привлекла более 1 миллиарда долларов инвестиций и оценивается в 5,6 миллиарда долларов. Значительную роль в этом сыграл соучредитель Лаки Грум, который ранее инвестировал в известные технологические компании. По данным источников, стартап ведет переговоры о новом раунде финансирования, который может поднять оценку до 11 миллиардов долларов, но компания это не комментирует.