Чому розробники штучного інтелекту залучають поетів та письменників

В IT зростає попит на гуманітаріїв: розробники генеративного штучного інтелекту Scale AI та Appen шукають поетів, письменників та авторів фан-фікшн, які виведуть роботу алгоритмів на новий рівень. Як відзначають дослідники, згенерувати заголовки таблоїдів — це непогано, але інструмент, який здатний відтворити стиль Гюго, виглядає набагато переконливіше.

Найбільші розробники генеративного штучного інтелекту із Кремнієвої долини публікують вакансії для поетів, драматургів чи письменників зі ступенем магістра або PhD. Десятки інших набирають співробітників для розмітки з гуманітарною освітою чи багаторічним досвідом роботи у галузі літератури.

Списки не обмежуються англійською: деякі шукають спеціально поетів та письменників-фантастів хінді та японською, а також тих, хто пише мовами, менш представленими в інтернеті.

Підрядники мають писати короткі оповідання на задану тему, які будуть використовуватися в моделях штучного інтелекту. Крім того, вони надаватимуть відгуки про літературну якість згенерованих текстів.

Ці списки ілюструють зв’язок між дивовижними можливостями генеративного штучного інтелекту та невидимою роботою людей, які стоять за ним.

У листопаді 2022 року, коли було запущено ChatGPT, особливо дивовижно виглядала здатність чат-бота писати вірші англійською. Наразі розробники збирають зразки художніх творів, завдяки яким він зможе створювати контент іншими мовами.

За словами Дена Брауна, професора Університету Ватерлоо, який досліджує креативність обчислювальних систем, ці інвестиції можуть окупитись.

«Якщо продукт можете правильно генерувати заголовки таблоїдів французькою мовою, це одне. Але якщо продукт може відтворити стиль Гюго чи когось відомого, це викликає довіру іншого роду», — каже він.

«Копіювання класичних мовних форм — це спосіб виглядати престижно» — вважає професор Університету Ватерлоо Ден Браун.

Серед клієнтів Scale AI та Appen є найбільші гравці у галузі розробки штучного інтелекту, включаючи OpenAI, Meta, Google та Microsoft. Вони намагаються зайняти провідні позиції у перегонах за лідерство у перспективному напрямі.

Конкуренція постійно зростає, і, як пояснює Браун, тут неймовірно важливою є перевага перших компаній, які займають ринок до приходу нових гравців.

Представник Appen заявив, що попит на письмових підрядників значно зріс з кінця 2022 року, зокрема мовами, відмінними від англійської. «У цьому випадку креативні письменники мають унікальний досвід, який дозволяє нам розробляти високоякісні навчальні дані для створення креативного штучного інтелекту, такого як поезія, тексти пісень та написання оповідань».

Представник Scale AI відмовився відповідати на конкретні питання про те, як вони набирають персонал. «У нашій роботі завжди були й будуть залучені люди, оскільки це вкрай важливо для розробки відповідального, безпечного та точного штучного інтелекту», — прокоментував він.

Навчити штучний інтелект створювати художні тексти високої якості – непросте завдання. Багато великих мовних моделей не навчені бути креативними. Одним із критеріїв, які використовуються дослідниками штучного інтелекту для оцінки креативності, є новизна — наскільки текст, створений моделлю, відрізняється від того, що вже існує. Але такі інструменти, як ChatGPT були створені для імітації людського письма, а не для творчості.

«Вони навчені відтворювати. Вони не створені для того, щоб бути великими, вони намагаються бути якомога ближчими до того, що існує», — пояснює Фабриціо Гоес, який викладає інформатику в Університеті Лестера.

Є причина, через яку багато перших статей від штучного інтелекту були футбольними оглядами та фінансовими новинами. Часто такі тексти дотримуються єдиного формату і не вимагають оригінальності. Між цим поезію оцінюють за її здатністю дивним чином створювати образи чи викликати певний настрій.

«Коли люди пишуть вірші, їм дуже, дуже важко це робити добре, — сказав Браун, зазначивши, що більшість поетів проходять через етапи редагування та доопрацювання, яким не навчені мовні моделі. — Навіть зараз після того, як почалася революція великих мовних моделей, ці машини не призначені створювати нове».

Наприклад, ChatGPT важко наслідувати структуру та ритм відомих поетів, що пишуть англійською, особливо тих, що порушують літературні норми. Вірші американського поета Уолта Вітмена відрізняються незвичайними формами, як і структура не схожа на класичну поезію. ChatGPT не міг повторити цей стиль і часто дотримувався класичних строф з чотирьох рядків, навіть якщо в інструкції була пряма вказівка цього не робити.

Ще складніше із твором віршів іншими мовами. Згідно з Гоєсом, ті ж дослідники намагалися імітувати поширені польські стилі поезії. Раніше цього року вони намагалися вдосконалити моделі для створення таких поетичних форм, як японські хайку та вака.

На сьогодні є свідчення того, що великі розробники штучного інтелекту навчають моделі на матеріалах, які легко зібрати в набір даних. Серед них Project Gutenberg, база даних із відкритим вихідним кодом, що містить десятки тисяч літературних творів зі статусом суспільного надбання.

Деякі дослідники також припускають, що розробники використовували Archive of Our Own (AO3), платформу, на якій розміщено понад 5 млн фанфіків. Нещодавно The Atlantic повідомила, що захищені авторським правом твори відомих авторів, включаючи Стівена Кінга, Зейді Сміт та Джорджа Сондерса, потрапили до популярного датасету LLM Books3.

Як і в більшості баз, зібраних за допомогою Інтернету, більшість матеріалів тут написані англійською мовою. Клієнти Scale AI та Appen добре доплачують креативним авторам, які допомагають заповнити цю прогалину у літературній мові. Наприклад, у Японії Scale AI платить співробітнику, який працює з даними, всього $13,98. Але досвідчений поет, який пише японською, книжковий редактор чи креативний письменник можуть отримувати до $50. Ймовірно, це пов’язано із вимогою про наявність вищої освіти.

Є прецеденти, коли ці компанії покладалися на експертів для роботи з даними — медики, коментують медичні зображення, або колишні військові, які працюють над продуктами оборонної сфери.

Мілагрос Мічелі, дослідник із Дослідницького інституту розподіленого штучного інтелекту (DAIR), розповідає, що тренд на використання професіоналів посилився лише за останні 6 місяців. Компанії переходять від створення моделей з нуля до їх точного налаштування для конкретних програм.

Вимоги до масової розмітки даних стають суворішими.

«Зараз недостатньо, щоб хтось просто говорив цією мовою, — каже Мічеллі. — Недостатньо бути його носієм. Потрібно мати дуже широкий словниковий запас і абсолютне знання мови».

БІЛЬШЕ ЦІКАВОГО:

Джерело: RestOfWorld

Чому розробники штучного інтелекту залучають поетів та письменників

Читайте также: