Калифорнийская робототехническая компания Figure представила универсальную систему управления Helix для человекоподобных роботов. Это двухуровневый нейросетевой алгоритм, связывающий зрительное восприятие и понимание языка с действиями робота. Под управлением Helix роботы с помощью простых голосовых команд могут манипулировать практически любыми предметами, даже если не встречались с ними ранее. Модель способна управлять несколькими роботами одновременно и позволяет им совместно выполнять одну задачу. Кроме того, Figure дополнительно доработала модель для сортировки посылок на конвейере, в результате чего роботы превзошли по скорости операторов-людей. Компания показала видео работы роботов в домашних условиях и на сортировке посылок, и опубликовала описание системы.
Основное преимущество человекоподобных роботов заключается в их универсальной способности работать в человеческой среде — благодаря антропоморфному телу они могут использовать уже существующие инструменты, мебель и инфраструктуру. Однако недостаточно просто придать роботу человеческую форму, необходимо еще и научить его правильно выполнять требуемую задачу. И с этим у инженеров есть проблемы — чтобы научить робота даже одному новому действию, например, захвату и перемещению объекта, до недавних пор требовалось либо ручное программирование, либо использование моделей машинного обучения, обученных на огромном объеме данных, например, на множестве демонстраций, в которых люди-операторы через систему дистанционного управления вручную показывают роботу правильный порядок движений (обучение через имитацию). Ситуация осложняется большим разнообразием окружений и объектов, с которыми роботу предстоит иметь дело.
Калифорнийский стартап Figure, занимающийся разработкой человекоподобных роботов, утверждает, что смог найти решение. Инженеры компании создали Helix — универсальную VLA-модель (Vision-Language-Action), которая объединяет обработку визуальной информации, понимание языка и управление движениями робота в единую систему. Helix имеет двухуровневую архитектуру. Одна из подсистем представляет собой зрительно-языковую модель на основе опенсорс-нейросети с семью миллиардами параметров, обученной на интернет-данных. На ее вход поступает изображение с камер робота, информация о его текущем состоянии (положение запястий, степень сгиба пальцев и так далее), и текстовые команды, описывающие требуемое действие. Модель преобразует эти данные в скрытое представление, обобщающее всю информацию о текущей задаче, после чего передает его на второй уровень.
Вторая подсистема — зрительно-моторная модель. Это обученный на данных телеманипуляций трансформер с 80 миллионами параметров, который управляет всей верхней половиной тела робота, включая движения рук, пальцев, головы и корпуса. В него передаются те же данные с камер и текущее состояние, а также вектор данных, сформированный предыдущей подсистемой. Первая высокоуровневая система, отвечающая за понимание сцены и языковых команд, работает на частоте 7–9 герц, а низкоуровневая, формирующая действия робота, — на частоте 200 герц. Такое разделение позволяет им работать в оптимальном временном масштабе: подсистема верхнего уровня «медленно думает» о высокоуровневых целях, а низкоуровневая «быстро думает», выполняя и корректируя физические действия робота в реальном времени.
Для обучения Helix инженеры Figure записали около 500 часов высококачественных данных демонстраций различных манипуляций. Для создания текстовых инструкций к ним использовалась система автоматической аннотации: зрительно-языковая модель анализировала видеозаписи и генерировала текстовые команды в формате «какие действия робот должен сделать в этом видео?». Обе подсистемы Helix обучались совместно сквозным образом (end-to-end). В результате модель научилась выполнять сложные манипуляции без необходимости в ручной настройке для каждой новой задачи.
Helix работает на двух видеокартах с низким энергопотреблением, встроенных в роботов Figure 02. Одна модель с одними и тем же набором весов нейросетей может управлять несколькими роботами одновременно, и описанный выше подход позволяет им быстро подстраиваться к движениям друг друга во время совместной работы над одной задачей. Роботы, оснащенные Helix, могут взять практически любой небольшой предмет с помощью голосовой команды. В тестах роботы успешно справлялись со множеством новых предметов, разложенных в беспорядке, — от стеклянной посуды и игрушек до инструментов и одежды — без каких-либо предварительных демонстраций или специального программирования.
Figure опубликовала несколько демонстрационных видео. В одном из них два робота выполняют уборку продуктов на кухне. Перед роботами выкладывают на стол несколько предметов, которые они ранее не видели, и дают абстрактную команду убрать их. Роботы самостоятельно распознают объекты и распределяют их по полкам холодильника и шкафа. При этом они координируют движения друг с другом и, если необходимо, передают предметы. Для применения Helix в логистике инженеры Figure доработали систему восприятия, чтобы роботы могли эффективно сортировать посылки на конвейере. Чтобы увеличить точность манипуляций, разработчики добавили в алгоритм учет стереоскопического зрения, в результате чего роботы научились лучше оценивать глубину сцены, корректировать захваты в реальном времени и ориентировать посылки разного размера, формы и материала штрих-кодами вверх. Роботы достигли производительности, сопоставимой с работой под управлением телеоператора, а в ускоренном режиме даже превзошли операторов по скорости, сохранив при этом точность действий.
Многие другие производители человекоподобных роботов позиционируют их как будущих домашних помощников. Среди них, например, норвежский стартап 1Х. Недавно компания показала новую версию своего робота NEO. У него плавные и естественные движения, которые можно сравнить с человеческими, а система управления, тоже основанная на нейросетях, может адаптироваться к новым задачам на основе предыдущего опыта.