Каліфорнійська робототехнічна компанія Figure представила універсальну систему управління Helix для людиноподібних роботів. Це дворівневий нейромережевий алгоритм, що пов’язує зорове сприйняття та розуміння мови з діями робота. Під керуванням Helix роботи за допомогою простих голосових команд можуть маніпулювати практично будь-якими предметами, навіть якщо не зустрічалися з ними раніше. Модель здатна керувати декількома роботами одночасно і дозволяє їм спільно виконувати одне завдання. Крім того, Figure додатково доопрацювала модель для сортування посилок на конвеєрі, внаслідок чого роботи перевершили за швидкістю операторів-людей. Компанія показала відео роботи роботів у домашніх умовах та на сортуванні посилок, та опублікувала опис системи.
Основна перевага людиноподібних роботів полягає в їхній універсальній здатності працювати в людському середовищі — завдяки антропоморфному тілу вони можуть використовувати вже наявні інструменти, меблі та інфраструктуру. Однак недостатньо просто надати роботі людської форми, необхідно ще й навчити її правильно виконувати необхідне завдання. І з цим в інженерів є проблеми — щоб навчити робота навіть одній новій дії, наприклад, захопленню і переміщенню об’єкта, до недавніх пір потрібно було або ручне програмування, або використання моделей машинного навчання, навчених на величезному обсязі даних, наприклад, на безлічі демонстрацій, в яких люди-оператори через систему дистанційного керування вручну показують роботу правильний порядок рухів (навчання через імітацію). Ситуація ускладнюється великою різноманітністю оточень та об’єктів, з якими роботу належить мати справу.
Каліфорнійський стартап Figure, який займається розробкою людиноподібних роботів, стверджує, що зміг знайти рішення. Інженери компанії створили Helix — універсальну VLA-модель (Vision-Language-Action), яка поєднує обробку візуальної інформації, розуміння мови та управління рухами робота в єдину систему. Helix має дворівневу архітектуру. Одна з підсистем є зорово-мовною моделлю на основі опенсорс-нейромережі з сімома мільярдами параметрів, навченої на інтернет-даних. На її вхід надходить зображення з камер робота, інформація про його поточний стан (положення зап’ясть, ступінь згинання пальців тощо), і текстові команди, що описують необхідну дію. Модель перетворює ці дані на приховане уявлення, що узагальнює всю інформацію про поточне завдання, після чого передає його на другий рівень.
Друга підсистема – зорово-моторна модель. Це навчений на даних телеманіпуляцій трансформер з 80 мільйонами параметрів, який управляє всією верхньою половиною тіла робота, включаючи рухи рук, пальців, голови та корпусу. У нього передаються самі дані з камер і поточний стан, і навіть вектор даних, сформований попередньою підсистемою. Перша високорівнева система, що відповідає за розуміння сцени та мовних команд, працює на частоті 7–9 герців, а низькорівнева, яка формує дії робота — на частоті 200 герців. Такий поділ дозволяє їм працювати в оптимальному часовому масштабі: підсистема верхнього рівня «повільно думає» про високорівневі цілі, а низькорівнева «швидко думає», виконуючи та коригуючи фізичні дії робота в реальному часі.
Для навчання Helix інженери Figure записали близько 500 годин високоякісних даних демонстрацій різних маніпуляцій. Для створення текстових інструкцій до них використовувалася система автоматичної анотації: візуально-мовна модель аналізувала відеозаписи та генерувала текстові команди у форматі «які дії робот має зробити в цьому відео?». Обидві підсистеми Helix навчалися разом наскрізним чином (end-to-end). В результаті модель навчилася виконувати складні маніпуляції без необхідності в ручному налаштуванні для кожного нового завдання.
Helix працює на двох відеокартах з низьким енергоспоживанням, вбудованих у роботів Figure 02. Одна модель з одним і тим же набором нейромереж може керувати кількома роботами одночасно, і описаний вище підхід дозволяє їм швидко підлаштовуватися до рухів один одного під час спільної роботи над одним завданням. Роботи, що оснащені Helix, можуть взяти практично будь-який невеликий предмет за допомогою голосової команди. У тестах роботи успішно справлялися з безліччю нових предметів, розкладених безладно, — від скляного посуду та іграшок до інструментів та одягу — без будь-яких попередніх демонстрацій або спеціального програмування.
Figure опублікувала кілька демонстраційних відео. В одному з них два роботи виконують збирання продуктів на кухні. Перед роботами викладають на стіл кілька предметів, які вони раніше не бачили, і дають абстрактну команду забрати їх. Роботи самостійно розпізнають об’єкти та розподіляють їх по полицях холодильника та шафи. При цьому вони координують рухи один з одним і, якщо потрібно, передають предмети. Для застосування Helix у логістиці інженери Figure допрацювали систему сприйняття, щоб роботи могли ефективно сортувати посилки на конвеєрі. Щоб збільшити точність маніпуляцій, розробники додали до алгоритму облік стереоскопічного зору, внаслідок чого роботи навчилися краще оцінювати глибину сцени, коригувати захоплення в реальному часі та орієнтувати посилки різного розміру, форми та матеріалу штрих-кодами вгору. Роботи досягли продуктивності, порівнянної з роботою під керівництвом телеоператора, а в прискореному режиму навіть перевершили операторів за швидкістю, зберігши свою точність дій.
Більше цікавого:
- Як роботи змінюють хірургію та медичну освіту
- Майбутнє поряд: Ілон Маск показав, як роботи збирають собі подібного
- Роботи компаньйони — розвиток індустрії електронних домашніх тварин
Джерело: Figure