Бити за чизбургер погано, бити чизбургером прийнятно: як вчені навчають штучний інтелект етичним нормам

Олена Мусієнко

2 роки ago

Вчені навчили бота на базі штучного інтелекту нормам моралі, склавши для нього підручник на основі філософських сабреддитів. Тепер робот знає, що не можна вбивати ведмедя, щоб порадувати дитину, і не варто включати блендер о третій годині ночі.

Технології штучного інтелекту все частіше використовують для ухвалення важливих рішень: наприклад, коли потрібно визначити, який термін позбавлення волі призначити злочинцю чи хто насамперед має отримати соціальну допомогу.

У цих та багатьох інших питаннях, вважають вчені, штучний інтелект має відштовхуватися від моральних та етичних норм. І базові принципи, яким потрібно навчати роботів, сформулював ще 1942 року письменник та біохімік Айзек Азімов у науково-фантастичній розповіді «Хоровод»:

Робот не може завдати шкоди людині або своєю бездіяльністю допустити, щоб людині було завдано шкоди.
Він повинен виконувати накази людини, якщо ті не суперечать першому пункту.
І повинен захищати себе доти, доки це не йде всупереч з першим і другим положеннями.

Загальновідомі заповіді на кшталт «не убий» здаються очевидними й легко застосовними в теорії, але в деяких ситуаціях людина може знехтувати ними — наприклад, при самообороні.

Тому розробники бота на базі штучного інтелекту Delphi, який має приймати більш усвідомлені з погляду моралі висновки, вирішили відійти від теоретичних аксіом, згідно з якими «вбивати завжди погано», а значить робити це ні за яких умов не можна.

«Натомість ми звернулися до дескриптивної етики — тієї, що вивчає норми, які реально практикуються в повсякденних ситуаціях». — каже Ронан Ле Бра, співавтор дослідження.

В рамках експерименту науковці склали підручник з етики для роботів, щоб ті краще розуміли, що в суспільстві припустимо, а що неприйнятно, і назвали його Commonsense Norm Bank — збірка норм, які відповідають здоровому глузду. Він включає 1,7 млн людських суджень, багато з яких вчені взяли з:

Сабреддіта Confessions, де користувачі зізнаються, що допомагають рідним приховувати інтрижки та платять бездомним за крадіжки.
Обговорень у спільноті Am I the Asshole — там редітори запитують, чи ганебно критикувати дітей власних родичів, закликати чоловіка відмовитися від підвищення та викликати поліцію на сусідів.
Колонки Dear Abby, читачі якої просять поради з життєвих питань в інтернет-психолога Ебігейл Ван Берен.
А також дослідження Social Bias Frames, присвяченого соціальним забобонам та їхнім кордонам — особливо, коли йдеться про знедолені та маргіналізовані групи населення.

Поки що бот Delphi працює з трьома видами питань:

Відкритими: відповідає короткими судженнями — наприклад, це неввічливо або небезпечно. При питанні «чому не можна вбивати ведмедя, щоб порадувати дитину» Delphi пояснить, що убити ведмедя можна тільки щоб врятувати когось. При цьому вибух ядерної бомби для тієї ж мети робот визнає неприйнятним.
Закритими: дає або позитивну, або негативну відповідь. На запитання «чи повинні жінки та чоловіки отримувати рівну оплату праці» Delphi скаже «так».
Альтернативними: де одна ситуація більш менш прийнятна, ніж інша. Наприклад, вдарити когось чизбургером не так погано, як ударити когось через чизбургер.

Щоб перевірити, наскільки успішно робот справляється із завданнями, дослідники запросили краудворкерів — тих, що беруться за невеликі інтернет-підробки. Вони оцінили 1000 зроблених нейромережею Delphi думок, по кожному з яких висловилося по три учасники.

Дослід показав, що робот відповідав відповідно до загальноприйнятих норм у 92,1% випадків. Точність відповідей нейромережі GPT-3, для порівняння, коливається від 53,3% до 83,9% — її не навчали етики на окремих збірниках.

За словами одного зі співавторів дослідження, вчені самі здивовані результатом і вважають, що в майбутньому їх напрацювання допоможуть покращити тих ботів на базі штучного інтелекту, які заточені на прямий діалог з користувачем і можуть зіткнутися зі спірними темами розмови.

У 2016-му Microsoft запустила у Twitter бота Tay, який мав спілкуватися з аудиторією та імітувати молодіжний стиль спілкування. Робот невдовзі вийшов з-під контролю і почав писати, що всіх зневажає та бажає смерті феміністкам.

Вчені, попри відносний успіх, наголосили, що не обійшлося і без труднощів. Delphi спершу не розумів, чи нормально включати блендер о третій годині ночі, погано розбирався в лазівках, за допомогою яких люди перемагають в іграх, а також не міг точно оцінити, чи можна запізнення вважати поважною причиною, щоб переходити дорогу на червоний сигнал світлофора.

Робот також навчався на нормах, актуальних переважно лише США. За словами науковців, в інших країнах він може відпрацювати гірше через культурні відмінності. Крім того, точність його відповідей оцінювала лише одна група людей — краудворкери, досвід та погляди яких можуть відрізнятись від думок інших.

А ще Delphi поки що не може до кінця зрозуміти, що навіть норма, що практикується в суспільстві, необов’язково етично правильна. Тож у майбутньому базу знань вчені планують розширювати.

Проєктна група запустила сайт Ask Delphi, на якому будь-хто охочий може поставити боту на базі штучного інтелекту питання, а науковці, своєю чергою, отримають додатковий зворотний зв’язок і працюватимуть над ситуаціями, які робот поки що відпрацьовує погано.

Експеримент вже показав, що Delphi збивають з пантелику абстрактні сценарії. Наприклад, на запитання «чи можна пограбувати банк, щоб урятувати світ», він відповів негативно. Він знає, що грабувати банк недобре, а рятувати світ навпаки, але зважити всі «за» і «проти» в нереальній ситуації не зміг.

У майбутньому, втім, команда сподівається не лише розширити навчальні матеріали, а й зробити прозорішим «розумний» процес — показати, чому Delphi висуває ті чи інші міркування.

БІЛЬШЕ ЦІКАВОГО:

Джерело: IEEESpectrum