Google запустила проєкт Everyday Robots з метою створити універсального робота на базі штучного інтелекту, який житиме і працюватиме разом з людьми. Команду заохочували мислити якнайкреативніше — їй вдалося навчити машини автономно забиратися і навіть імпровізувати в танцях. Колишній віцепрезидент проєкту Ганс Петер Брондмо розповів виданню Wired про «внутрішню кухню». Наводимо переказ цього матеріалу.
Що являв собою проєкт X
Проєкт Google X, відомий як Everyday Robots, було запущено у 2010 році. В основі лежала ідея, що Google здатна вирішити деякі з найскладніших проблем у світі.
Команду навмисно розмістили в окремій будівлі за кілька миль від головного кампусу — вона мала розвивати свою культуру і мислити якомога нестандартніше. Чимало сил було вкладено в те, щоби спонукати учасників приймати великі ризики, швидко експериментувати та навіть радіти невдачам — як показник того, що команда встановила вкрай високу планку.
Коли Брондмо приєднався до проєкту, вже велася робота над Waymo, Google Glass та іншими науково-фантастичними ідеями (серед них — енергетичні вітряки, які знаходяться в повітрі та стратостати, які нададуть доступ до інтернету районам, що недостатньо обслуговуються).
Від стартапів Кремнієвої долини проєкти X відрізнялися тим, як масштабно і довгостроково співробітників спонукали мислити. Проєкт мав відповідати спеціальній «формулі»:
- розв’язувати проблему, яка торкається сотень мільйонів або навіть мільярдів людей;
- використовувати проривну технологію, що дозволяє розв’язати проблему по-новому;
- пропонувати радикальне рішення для бізнесу або продукту, яке може здаватися шаленим (у хорошому розумінні цього слова).
Чому так складно створити тіло для штучного інтелекту
Проєктом X керував Астро Теллер, і, як стверджує Брондмо, важко уявити людину, що більш підходить на цю роль. Астро з’являвся в офісі тільки на роликах, а зібране у хвіст волосся, доброзичлива посмішка та незвичайне ім’я робили його схожим на персонажа з серіалу HBO «Кремнієва долина».
Брондмо розповідає: «Коли ми з Астро вперше обговорювали, як вчинити з дев’ятьма компаніями-виробниками роботів, які придбали Google, ми вирішили, що щось потрібно зробити. Але що? На той момент більшість корисних роботів були великими, дурними та небезпечними. Їх використовували на заводах та складах, і їх часто потрібно було суворо контролювати чи поміщати у клітки, щоб захистити від них людей.
Як створити роботів, корисних та безпечних у повсякденних умовах? Потрібен новий підхід. Такі машини мали розв’язати проблему старіння населення, і навіть скорочення і нестачі робочої сили. Ще у 2016 році команда розуміла, що проривною технологією стане штучний інтелект. Радикальне рішення: повністю автономні роботи, які допомагатимуть нам у повсякденному житті.
Іншими словами, команда збиралася створити для штучного інтелекту фізичне тіло. Брондмо був переконаний, що щось такого масштабу може бути створено саме в X. Для цього потрібно багато часу та терпіння, готовність пробувати шалені ідеї та зазнавати невдачі у багатьох із них. Це вимагає значних технічних проривів у галузі штучного інтелекту та робототехніки й, найімовірніше, коштуватиме мільярди доларів.
Члени команди були глибоко переконані: злиття штучного інтелекту та робототехніки неминуче — треба лише заглянути за обрій можливого. Всім здавалося, що багато з того, що існувало лише в науковій фантастиці, ось-ось стане реальністю.
У команду X входив Джефф Бінгем, який мав докторський ступінь у галузі біоінженерії та репутацію людини, здатної запропонувати глибокі інсайти з будь-якої теми. Бінгем назвав робототехніку «системною проблемою». Він хотів підкреслити: робот — дуже складна система, і вона гарна лише настільки, наскільки гарна її найслабша частина.
- Якщо підсистемі зору важко сприймати об’єкти під прямим сонячним промінням, то сонячного дня робот може раптово осліпнути та перестати працювати.
- Якщо підсистема навігації не розпізнає сходи, робот може впасти, покалічивши себе та оточення.
І це лише кілька прикладів. Важко створити робота, який зможе жити та працювати разом з нами.
Десятиліттями люди намагалися запрограмувати різні види роботів, щоб ті виконували прості завдання, наприклад, брали чашку зі столу або відчиняли двері. Проте за найменших змін ці програми завжди давали збій. Проблема – у непередбачуваності реального світу. І це ще не так складно, як, наприклад, переміщатися неорганізованими й захаращеними просторами, де ми живемо і працюємо.
Якщо не помістити всі об’єкти в певні місця і не підтримувати однакове освітлення, то нездійсненним стане навіть таке просте завдання, як взяти, наприклад, зелене яблуко і покласти його в скляну миску на кухонному столі. Ось чому заводських роботів тримають у закритих середовищах. Їхнє оточення передбачуване, і їм не потрібно турбуватися про те, що вони вдарять людину по голові.
Як навчають роботів
Ларрі Пейдж говорив, що для створення роботів, які житимуть і працюватимуть разом з нами, потрібно всього 17 фахівців з машинного навчання. Чому саме це число?
Якщо говорити коротко, є два підходи до застосування штучного інтелекту у робототехніці.
Гібридний підхід – різні частини системи працюють на базі штучного інтелекту, а потім з’єднуються за допомогою традиційного програмування.
При такому підході підсистема зору використовує штучний інтелект, щоб розпізнавати та присвоювати категорії навколишньому світу. Коли вона створює список видимих об’єктів, програма робота отримує цей список і діє на його основі, використовуючи алгоритми, реалізовані в коді.
Якщо програма вказує взяти яблуко зі столу, то яблуко буде виявлено системою зору з урахуванням штучного інтелекту, а програма вибере зі списку об’єкт типу «яблуко» і потягнеться до нього, використовуючи традиційне для управління роботом.
Наскрізне навчання (end-to-end learning, e2e) — спрямоване вивчення цілих завдань, як-от «підняття об’єкта», і навіть комплексніших, наприклад «прибирання столу».
Роботам надають величезний обсяг навчальних даних — подібно до того, як людина вчиться виконувати фізичне завдання. Якщо попросити дитину підняти чашку, залежно від віку їй може знадобитися дізнатися, що таке чашка, що в ній може бути рідина, а також неодноразово перекинути її або принаймні пролити багато молока. Але спостерігаючи за іншими, наслідуючи їх і практикуючись, вона вчиться це робити й навіть не замислюється про виконані кроки.
Брондмо дійшов висновку, що Пейдж мав на увазі таке: ніщо не мало значення, допоки команда не продемонструє, що роботи можуть навчитися виконувати комплексні завдання. Тільки тоді з’явиться реальний шанс створити машини, здатні виконувати ці завдання у заплутаному та непередбачуваному реальному світі. Справа не в конкретній кількості 17, а в тому, що для великих проривів потрібні маленькі команди, а не армії інженерів.
Поворотний момент на «фермі рук»
Пітер Пастор, який здобув докторський ступінь з робототехніки в Університеті Південної Каліфорнії, проводив багато часу в лабораторії, пораючись з 14 розробленими там же механічними руками, яких пізніше замінили 7 промисловими роборуками Kuka. Команда назвала це «фермою рук».
Ці руки працювали цілодобово, постійно намагаючись підняти з кошика предмети на кшталт губок, кубиків Lego, гумових каченят і пластикових бананів. Спочатку роборуки запрограмували на те, щоб із випадкового положення зверху переміщувати захоплене в кошик, закривати та підіймати його, а потім перевіряти, чи є там щось. Над кошиком знаходилася камера, яка фіксувала вміст, рух руки та її успіх чи невдачу. Це тривало місяцями.
На початку роботи справлялися лише у 7% випадків. З кожним успіхом вони отримували позитивне підкріплення (так звану «вагу» в нейронній мережі, що використовуються для визначення різних результатів та коригуються для позитивного підкріплення бажаної поведінки та негативного підкріплення небажаного). Зрештою, ці руки навчилися успішно підбирати предмети більш ніж у 70% випадків.
Як розповів Брондмо, якось Пітер показав йому відео, на якому рука робота не просто тяглася за жовтим блоком Lego, а прибирала з дороги інші предмети, щоб схопити саме його. Це стало поворотним моментом. Робот не був запрограмований на цей рух. Він навчився це робити.
Але факт залишається фактом: сім роботів витратили кілька місяців, щоб навчитися підіймати гумове каченя. Дуже довго. Щоб прискорити процес, команда збудувала хмарний симулятор і у 2021 році створила в ньому понад 240 млн екземплярів роботів.
Симулятор нагадує гігантську відеогру з моделлю фізики реального світу, достатньо реалістичною, щоб імітувати вагу предмета та тертя поверхні. Тисячі віртуальних роботів, виконували такі завдання, як взяти чашку зі столу, використовуючи дані зі змодельованої камери й змодельованого тіла, створені за зразком реальних машин.
Ці роботи одночасно намагалися і зазнавали невдачі мільйони разів, збираючи дані для навчання алгоритмів штучного інтелекту. Коли вони стали досить добре справлятися у симуляції, алгоритми перенесли до фізичних роботів, щоб ті виконали нові рухи у реальному світі.
Роботам потрібно дуже багато даних
Потрібно величезний обсяг інформації, щоб навчити роботів автономно жити та працювати разом з нами. Навіть із симуляціями та іншими способами створити навчальні дані роботи навряд чи колись почнуть працювати на базовій моделі, яка контролює всю систему.
Все ще неясно, наскільки складні завдання здатні освоїти машини за допомогою лише штучного інтелекту. На думку Брондмо, тисячам чи навіть мільйонам роботів потрібно буде навчатися у реальному світі, щоб зібрати достатньо даних для наскрізного навчання моделей, які дозволять виконувати не лише чітко визначені завдання.
Для створення корисних роботів, які, наприклад, прибирають столи в ресторані або заправляють ліжка в готелі, ще тривалий час буде потрібно як штучний інтелект, так і традиційне програмування. Іншими словами, не чекайте, що найближчим часом роботи вийдуть з-під контролю та почнуть робити те, на що не було запрограмовано.
Чи мають машини виглядати як люди?
Брондмо вважає, що роботи не повинні просто наслідувати нас. У цьому він переконався на зустрічі із технічними керівниками Everyday Robots. Учасники сиділи за столом переговорів та жваво обговорювали, чи мають у роботів бути ноги або колеса. Одна зі сторін запропонувала добрий аргумент: місця, де ми живемо та працюємо, пристосовані до нас, а у нас є ноги. Отже, можливо, вони мають бути й у роботів.
Через пів години Вінсент Дюро, найстарший інженер у залі, сказав: “Я думаю, що якщо я можу кудись дістатися, то зможуть і роботи”. Вінсент сидів у інвалідному візку. У приміщенні запанувала тиша. Дискусія була закінчена.
Правда в тому, що ноги робота механічно та електронно дуже складні. Вони рухаються не дуже швидко, роблять робота нестійким і менш енергоефективним у порівнянні з колесами. На думку Брондмо, не варто прагнути наслідування — цей принцип можна використовувати й в інших дизайнах.
Команда Everyday Robots прагнула максимально спростити будову роботів, адже чим раніше вони зможуть виконувати реальні завдання, тим швидше вдасться зібрати цінні дані.
Роботи-прибиральники столів
Брондмо розповідає: «Я сидів за столом, коли один із наших одноруких роботів з головою у формі прямокутника із закругленими кутами під’їхав, звернувся до мене на ім’я і запитав, чи може він прибратися. Я сказав «так» і відійшов убік».
«За кілька хвилин він зібрав пару порожніх паперових стаканчиків, прозорий стаканчик для чаю з льодом із Starbucks та пластикову обгортку від батончика Kind. Він кинув ці предмети в лоток для сміття, прикріплений до його основи, а потім повернувся до мене, кивнув і подався до наступного столу».
Роботи використовували штучний інтелект, щоб бачити людей і предмети — це показувало, що команда досягла значного прогресу.
Бенджі Холсон, інженер-програміст і колишній ляльковик, який очолював команду, яка створила цих роботів-прибиральників, був прихильником гібридного підходу. Він не виступав проти наскрізного навчання, але був націлений змусити машини робити щось корисне зараз. Якщо науковці в області машинного навчання вирішували якесь завдання з наскрізного навчання краще, ніж його команда могла запрограмувати, вони просто додавали більше алгоритмів.
Хоча Брондмо звик до машин прибиральників, їм, як і раніше, дивувалися і раділи відвідувачі та нові співробітники. “Їх погляд нагадував мені, наскільки це було нове”, – розповідає він.
Машини що танцюють
Консультантами для Everyday Robots були філософ, антрополог, колишній лідер профспілки, історик та економіст. З ними члени команди обговорювали економічні, соціальні та філософські питання. Наприклад:
- Якщо роботи почнуть жити разом із нами, якими будуть економічні наслідки?
- Який довгостроковий та короткостроковий вплив вони будуть мати на ринок праці?
- Що означає бути людиною в епоху розумних машин?
- Як створювати ці машини таким чином, щоб ми відчували себе комфортно та в безпеці?
У 2019 році Брондмо познайомився з Кеті Куан, яка навчалася на докторський ступінь з робототехніки та штучного інтелекту в Стенфорді та була професійною танцівницею. Команді потрібна була людина, яка навчатиме роботів чогось творчого та незвичайного.
Є чимало відео де роботи танцюють, точніше виконують заздалегідь запрограмовану послідовність рухів, синхронізованих з музикою. Щоб машини імпровізували та взаємодіяли один з одним, Кеті та кілька інших інженерів розробили алгоритм штучного інтелекту, навчений на уподобаннях хореографа (звичайно, самої Кеті).
Часто вечорами, а іноді й у вихідні, коли роботи не були зайняті повсякденними справами, Кеті та її імпровізована команда збирали їх у великому атріумі в центрі офісу X. Машини починали рухатися разом, іноді плутано, але завжди за цікавими схемами.
Том Енгберсен — робототехнік із Нідерландів, який у вільний час малював копії класичних шедеврів. Разом з Кеті він розпочав сайд проєкт із вивчення того, чи можуть роботи що танцюють реагувати на музику чи навіть грати на інструменті. Якось у нього виникла нова ідея: що, коли роботи самі стануть інструментами? Так почалося дослідження, під час якого кожен суглоб роботів відтворював звук під час руху.
Основа видавала звук баса, а рука – дзвіночка. Коли команда запускала музичний режим, роботи створювали унікальні оркестрові партитури за кожного руху.
Це лише початок
Наприкінці 2022 року тривали розмови про те, який підхід кращий — гібридний чи наскрізне навчання. Пітер з командою та співробітниками Google Brain працювали над застосуванням навчання з підкріпленням, імітаційного навчання та трансформери (архітектура, що лежить в основі LLM) до кількох завдань для роботів. Їм вдалося показати: машини здатні навчатися так, щоб стати загальними, надійними та стійкими.
Тим часом команда додатків під керівництвом Бенджі працювала над тим, щоб використовувати моделі штучного інтелекту з традиційним програмуванням для прототипування та створення сервісних роботів, які можна розгорнути серед людей у реальних умовах.
Водночас Project Starling, як назвали проєкт Кеті, змінив ставлення Брондмо до цих машин. Він зауважив, що люди спостерігали за роботами з подивом, радістю та цікавістю, і дійшов висновку, що рухи та звуки роботів можуть викликати сильні людські емоції. Це важливий фактор, від якого залежить, як ми приймемо їх у наше повсякденне життя (і чи станеться це).
Іншими словами, розумні роботи ось-ось мали стати корисними. Штучний інтелект давав машинам можливість розуміти почуте (усну та письмову мову) і переводити це в дії, а також розпізнавати побачене (зображення з камери) і перетворювати це на сцени та об’єкти, з якими можна взаємодіяти.
І, як показала команда Пітера, роботи навчилися підіймати предмети. Через понад сім років ми розгорнули парки роботів у кількох будинках Google. Один тип роботів виконував різні завдання: автономно протирав столи в кафе, оглядав конференц-зали, сортував сміття та багато іншого.
Саме тоді, у січні 2023 року, за два місяці після виходу ChatGPT, Google закрила Everyday Robots через високі витрати. Роботи та невелика кількість людей перейшли до Google DeepMind для проведення досліджень. Попри високі витрати та тривалі терміни, усі члени команди були шоковані.
Роботи – необхідність для деяких країн
У 1970 році на кожну людину старше 64 років у світі припадало 10 осіб працездатного віку. До 2050 року їх, ймовірно, буде менш ніж чотири. Проблема особливо актуальна у таких країнах, як Японія, Китай та Південна Корея, які активно інвестують у робототехніку.
Створити фізичне тіло для штучного інтелекту — це питання не тільки національної безпеки, але й величезна економічна можливість. Якщо така технологічна компанія як Google вирішує, що не може інвестувати в такі проєкти, то хто це зробить? Чи візьметься за це Кремнієва долина, чи інші екосистеми стартапів, і якщо так, то чи матиме вони доступ до довгострокового капіталу? Брондмо у цьому сумнівається.
Інженер вважає, що Everyday Robots отримав статус moonshot (так називають вкрай амбітні та інноваційні проєкти), оскільки створення найскладніших систем такого масштабу вийшло далеко за межі того, на що зазвичай вистачало терпіння стартапам, що фінансуються венчурним капіталом. На його думку, хоч США й випереджає інших у галузі штучного інтелекту, створення роботів вимагає навичок та інфраструктури, в яких вже лідирують інші країни, насамперед Китай.
Більше цікавого:
- Роботи від Alphabet почали займатися прибиранням офісів Google
- Google DeepMind навчила робота грати в настільний теніс на рівні людини
- Робот з Google Robotics навчився самостійно ходити
Джерело: Wired