Blog Imena.UA

Як роботи освоїли мислення вищого порядку завдяки DeepMind

Google DeepMind виклала 25 вересня ролик, у якому показано, як її гуманоїдні платформи справляються з багатокроковими побутовими завданнями, спираючись на мультимодальні міркування. У серії демонстрацій машини впевнено виконували ланцюжки дій, включаючи сортування предметів за заздалегідь заданими правилами.

Інтелект цих систем базується на сімействі Gemini Robotics 1.5. У зв’язці працюють два компоненти: базова модель переводить зорові сигнали та текстові підказки у конкретні рухи, а модифікація Gemini Robotics-ER 1.5 будує покрокові плани та розмірковує про поточну ситуацію, вибираючи послідовність кроків.

Так званий банановий тест добре свідчить про прогрес. Раніше від робота вимагали тільки взяти банан і покласти його в миску — одна команда, один результат. Тепер платформа відсортувала три різні фрукти за кольором і розклала їх по тарілках. Експеримент демонстрував старший дослідник Google DeepMind Цзе Тан; Дворучна система на базі маніпуляторів Franka без збоїв пройшла всю послідовність.

Окремо перевірили можливості гуманоїдної платформи Apollo від Apptronik на задачі з білизною. Машина розкладала речі за відтінками у дві місткості — для білого та для чорного. Після першої вдалої спроби інженери поміняли контейнери місцями, щоб зрозуміти, чи апарат помітить перестановку в процесі та чи скоригує дії. Apollo розпізнав нове розташування та завершив сортування коректно.

Gemini Robotics 1.5 підтримує втілене навчання: робот досліджує оточення корпусом, сенсорами та камерами, а потім діє з опорою на власні спостереження. У більшості епізодів працював ALOHA 2, але ті ж сценарії під силу й Apollo, і дворучної установки Franka. З’явилися й агентні функції. Наприклад, системі можна доручити роздільний збір: вона знайде в мережі місцеві правила, візуально оцінить кожен предмет, віднесе його до компосту, перероблення або відходів і виконає весь ланцюжок від рішення до утилізації в потрібний контейнер.

Такий рівень послідовності забезпечує спільна робота двох компонентів: один відповідає за шлях від сприйняття до руху, другий – за планування та логіку. Завдяки цій архітектурі виконання реальних завдань стає зрозумілішим та надійнішим.

Безпеці приділили окрему увагу. Роботів вчать заздалегідь оцінювати ризики, дотримуватися людських обмежень та уникати небезпечних ситуацій. За підтримки профільних команд та оновленого тесту ASIMOV версія Gemini Robotics-ER 1.5 вийшла на провідні позиції у випробуваннях, що має спростити акуратне впровадження подібних систем за межами лабораторії.

Більше цікавого:

Джерело: Google DeepMind