Бити за чизбургер погано, бити чизбургером прийнятно: як вчені навчають штучний інтелект етичним нормам

Вчені навчили бота на базі штучного інтелекту нормам моралі, склавши для нього підручник на основі філософських сабреддитів. Тепер робот знає, що не можна вбивати ведмедя, щоб порадувати дитину, і не варто включати блендер о третій годині ночі.

Технології штучного інтелекту все частіше використовують для ухвалення важливих рішень: наприклад, коли потрібно визначити, який термін позбавлення волі призначити злочинцю чи хто насамперед має отримати соціальну допомогу.

У цих та багатьох інших питаннях, вважають вчені, штучний інтелект має відштовхуватися від моральних та етичних норм. І базові принципи, яким потрібно навчати роботів, сформулював ще 1942 року письменник та біохімік Айзек Азімов у науково-фантастичній розповіді «Хоровод»:

Робот не може завдати шкоди людині або своєю бездіяльністю допустити, щоб людині було завдано шкоди.
Він повинен виконувати накази людини, якщо ті не суперечать першому пункту.
І повинен захищати себе доти, доки це не йде всупереч з першим і другим положеннями.

Загальновідомі заповіді на кшталт «не убий» здаються очевидними й легко застосовними в теорії, але в деяких ситуаціях людина може знехтувати ними — наприклад, при самообороні.

Тому розробники бота на базі штучного інтелекту Delphi, який має приймати більш усвідомлені з погляду моралі висновки, вирішили відійти від теоретичних аксіом, згідно з якими «вбивати завжди погано», а значить робити це ні за яких умов не можна.

«Натомість ми звернулися до дескриптивної етики — тієї, що вивчає норми, які реально практикуються в повсякденних ситуаціях». — каже Ронан Ле Бра, співавтор дослідження.

В рамках експерименту науковці склали підручник з етики для роботів, щоб ті краще розуміли, що в суспільстві припустимо, а що неприйнятно, і назвали його Commonsense Norm Bank — збірка норм, які відповідають здоровому глузду. Він включає 1,7 млн людських суджень, багато з яких вчені взяли з:

Сабреддіта Confessions, де користувачі зізнаються, що допомагають рідним приховувати інтрижки та платять бездомним за крадіжки.
Обговорень у спільноті Am I the Asshole — там редітори запитують, чи ганебно критикувати дітей власних родичів, закликати чоловіка відмовитися від підвищення та викликати поліцію на сусідів.
Колонки Dear Abby, читачі якої просять поради з життєвих питань в інтернет-психолога Ебігейл Ван Берен.
А також дослідження Social Bias Frames, присвяченого соціальним забобонам та їхнім кордонам — особливо, коли йдеться про знедолені та маргіналізовані групи населення.

Поки що бот Delphi працює з трьома видами питань:

Відкритими: відповідає короткими судженнями — наприклад, це неввічливо або небезпечно. При питанні «чому не можна вбивати ведмедя, щоб порадувати дитину» Delphi пояснить, що убити ведмедя можна тільки щоб врятувати когось. При цьому вибух ядерної бомби для тієї ж мети робот визнає неприйнятним.
Закритими: дає або позитивну, або негативну відповідь. На запитання «чи повинні жінки та чоловіки отримувати рівну оплату праці» Delphi скаже «так».
Альтернативними: де одна ситуація більш менш прийнятна, ніж інша. Наприклад, вдарити когось чизбургером не так погано, як ударити когось через чизбургер.

Щоб перевірити, наскільки успішно робот справляється із завданнями, дослідники запросили краудворкерів — тих, що беруться за невеликі інтернет-підробки. Вони оцінили 1000 зроблених нейромережею Delphi думок, по кожному з яких висловилося по три учасники.

Дослід показав, що робот відповідав відповідно до загальноприйнятих норм у 92,1% випадків. Точність відповідей нейромережі GPT-3, для порівняння, коливається від 53,3% до 83,9% — її не навчали етики на окремих збірниках.

За словами одного зі співавторів дослідження, вчені самі здивовані результатом і вважають, що в майбутньому їх напрацювання допоможуть покращити тих ботів на базі штучного інтелекту, які заточені на прямий діалог з користувачем і можуть зіткнутися зі спірними темами розмови.

У 2016-му Microsoft запустила у Twitter бота Tay, який мав спілкуватися з аудиторією та імітувати молодіжний стиль спілкування. Робот невдовзі вийшов з-під контролю і почав писати, що всіх зневажає та бажає смерті феміністкам.

Вчені, попри відносний успіх, наголосили, що не обійшлося і без труднощів. Delphi спершу не розумів, чи нормально включати блендер о третій годині ночі, погано розбирався в лазівках, за допомогою яких люди перемагають в іграх, а також не міг точно оцінити, чи можна запізнення вважати поважною причиною, щоб переходити дорогу на червоний сигнал світлофора.

Робот також навчався на нормах, актуальних переважно лише США. За словами науковців, в інших країнах він може відпрацювати гірше через культурні відмінності. Крім того, точність його відповідей оцінювала лише одна група людей — краудворкери, досвід та погляди яких можуть відрізнятись від думок інших.

А ще Delphi поки що не може до кінця зрозуміти, що навіть норма, що практикується в суспільстві, необов’язково етично правильна. Тож у майбутньому базу знань вчені планують розширювати.

Проєктна група запустила сайт Ask Delphi, на якому будь-хто охочий може поставити боту на базі штучного інтелекту питання, а науковці, своєю чергою, отримають додатковий зворотний зв’язок і працюватимуть над ситуаціями, які робот поки що відпрацьовує погано.

Експеримент вже показав, що Delphi збивають з пантелику абстрактні сценарії. Наприклад, на запитання «чи можна пограбувати банк, щоб урятувати світ», він відповів негативно. Він знає, що грабувати банк недобре, а рятувати світ навпаки, але зважити всі «за» і «проти» в нереальній ситуації не зміг.

У майбутньому, втім, команда сподівається не лише розширити навчальні матеріали, а й зробити прозорішим «розумний» процес — показати, чому Delphi висуває ті чи інші міркування.

БІЛЬШЕ ЦІКАВОГО:

Джерело: IEEESpectrum

Бити за чизбургер погано, бити чизбургером прийнятно: як вчені навчають штучний інтелект етичним нормам

Читайте также: