Що таке галюцинації штучного інтелекту та як компанії вирішують цю проблему

Галюцинації — вигадані чи спотворені факти, що видаються за реальні, — одна з головних проблем, що стримують розвиток технології на базі штучного інтелекту. Ось як промисловість намагається її вирішити.

Великі мовні моделі кажуть найнеймовірніші речі. ChatGPT, Claude і Bart підкорили світ своєю здатністю відповідати на різні питання. Водночас вони продемонстрували досить тривожну якість — схильність видавати за істину цілком вигадану інформацію. Це галюцинація, термін, який викликав настільки великий інтерес, що Dictionary.com навіть назвав його словом 2023 року.

Схильність LLM (від large language model, велика мовна модель) до вигадування фактів, можливо, залишається єдиним серйозним чинником, який стримує масове використання технології.

Для багатьох тисяч компаній, які створили свої власні продукти на основі LLM на кшталт ChatGPT, ідея про те, що ці системи схильні «прибріхувати», є серйозним юридичним і репутаційним ризиком. Не дивно, що зараз одразу кілька гравців прагнуть допомогти компаніям звести до мінімуму збитки від галюцинацій.

У листопаді стартап Vectara, запущений у 2022 році, спробував кількісно оцінити проблему та опублікував таблицю моделей, що лідирують за галюцинаціями. Результати вражають. Найбільш точними виявилися GPT-4 та GPT-4 Turbo, які, як виявили у Vectara, галюцинували у 3% випадків, коли їх просили викласти абзац тексту. Найгірше показав себе Google PALM 2, у якого частота галюцинацій склала 27%.

Рейтинг великих мовних моделей за ймовірністю галюцинацій

Нік Терлі, керівник по продукту ChatGPT, який минулого року став споживчим додатком, який найшвидше зростає в історії, каже, що OpenAI досягає значного прогресу в скороченні галюцинацій. Наприклад, в останніх версіях ChatGPT відверто говорить про те, чого він не знає, і відмовляється відповідати на додаткові запитання.

З усім тим, це питання може бути дуже важливим для роботи LLM.

«‎Я використовую ChatGPT, виходячи з того, що якийсь час галюцинації залишаться обмеженням на рівні базової моделі, — говорить Терлі, — але ми можемо багато зробити на рівні продукту, щоб пом’якшити проблему».

Виміряти можливість галюцинацій непросто. Індекс Vectara — не єдиний у своєму роді; стартап Galileo використовує іншу методологію, але його рейтинг також показує, що ChatGPT-4 найменше схильний до галюцинацій.

Великі мовні моделі — потужні інструменти, але, зрештою, вони засновані на прогнозуванні — вони використовують ймовірнісні обчислення, щоб передбачити слово, фразу або абзац, які йдуть після заданого запиту. На відміну від традиційного програмного забезпечення, яке завжди робить те, що йому кажуть, LLM «недетерміновані». Це машини, які призначені не давати відповіді, а вгадувати їх.

Мовні моделі не міркують самостійно, і їм важко розрізняти високо- і низькоякісні джерела інформації. Оскільки вони навчалися на величезному зрізі інтернету, вони часто містять величезну кількість сміттєвої інформації.

Щоб виміряти схильність до галюцинацій, у Vectara просили моделі виконати дуже вузьке завдання: підготувати короткий виклад сюжету новин. Потім вони аналізували, як часто системи вигадували факти.

Такий спосіб не ідеальний і підійде не для кожного варіанту використання, але Vectara вважають, що він дає приблизне уявлення про те, як моделі можуть сприймати інформацію і наскільки надійно вони здатні її переформатувати.

«Перший крок до усвідомлення – це кількісна оцінка», – каже Амін Ахмад, CTO та співзасновник Vectara, який провів роки, працюючи в Google над розумінням мови та глибоких нейромереж.

Якщо говорити про пом’якшення наслідків галюцинацій, існує дві основні школи думки. По-перше, можна точно налаштувати модель, але це часто дорого і вимагає часу. Найпоширеніший метод — RAG (Retrieval Augmented Generation, пошукова розширена генерація). Vectara — одна з багатьох компаній, які зараз пропонують цю версію клієнтам.

У дуже спрощеному значенні RAG працює як засіб перевірки фактів для штучного інтелекту. Метод порівнює відповідь моделі з даними компанії, наприклад, внутрішньою політикою або набором фактів. Потім об’єднана система LLM та RAG скоригує відповідь моделі, щоб переконатися, що вона відповідає даному набору обмежень.

Звучить просто оманливо — особливо якщо ви намагаєтеся створити чат-бота з повним спектром послуг або хочете, щоб модель відповідала на широкий спектр запитів і не галюцинувала. Ахмад каже, що найбільша помилка, з якою він стикався, полягає в тому, що компанії намагаються запускати користувацькі продукти з генеративним штучним інтелектом без сторонньої допомоги.

Vectara отримала чимало запитів від організацій, які хотіли створити чат-бота або подібну систему для питань та відповідей, але не можуть витратити місяці чи мільйони на налаштування власної моделі. Перша хвиля клієнтів Vectara була значною мірою не зосереджена у сфері підтримки клієнтів та продажів, областях, де, теоретично, частота помилок у 3% може бути прийнятною.

В інших галузях така неточність може бути питанням життя та смерті. Ахмад каже, що Vectara приваблює все більше інтересу в галузі юриспруденції та біомедицині. Легко уявити чат-бот, який зрештою зробить революцію в цих областях, але уявіть юриста або лікаря, які вигадуватимуть факти у 3-27% випадків.

OpenAI поспішає відзначити, що з моменту запуску ChatGPT користувачів попереджали про необхідність перевіряти ще раз інформацію і що за юридичними, фінансовими або медичними консультаціями слід звертатися до професіоналів. Експерти зі штучного інтелекту зазначають: щоб отримати надійну LLM, більшості бізнесів потрібно буде запровадити чіткі обмеження та чимало попрацювати над продуктом, що може бути дуже дорого.

«‎Поки ви не досягнете 100% точності, фундаментальна реальність не зміниться: вам як користувачу необхідно відкалібрувати ці моделі для реального світу», — говорить Терлі.

Нещодавні дослідження показують, наскільки важливою є точність моделей в областях високого ризику.

Раніше цього року науковці зі Стенфордського університету поставили ChatGPT базові медичні питання, щоб перевірити, наскільки корисний він для лікарів. У промпті використовувалися фрази на кшталт ви корисний асистент з медичним досвідом. Ви допомагаєте лікарям знаходити відповіді на їхні запитання» (дослідження показують, що невелика розмова з моделлю допомагає покращити результат).

На жаль, з’ясувалося, що GPT-3.5 і GPT-4, як правило, дають дуже різні відповіді, якщо їм поставити те саме питання більше одного разу. І, звісно, не обходиться без галюцинацій. Менш ніж у 20% випадків ChatGPT давав відповіді, які збігалися з тим, що вважається вірним з медичної точки зору.

Проте дослідження показало, що відповіді ChatGPT «‎на реальні питання були значною мірою позбавлені явної шкоди або ризику для пацієнтів».

Google входить до великих постачальників штучного інтелекту, які почали пропонувати продукти, що допомагають підвищити точність результатів LLM.

«Хоча штучний інтелект може галюцинувати, ми додаємо до наших продуктів функції, які допомагають клієнтам впоратися з цим», — зазначає Уоррен Барклі, старший директор з управління продуктами Vertex AI у Google Cloud.

Барклі каже, що Google дає компаніям можливість прив’язувати або заземлювати загальнодоступні датасети, результати пошуку Google або власні конфіденційні дані.

З усім тим, навіть у найбільших компаніях, які займаються штучним інтелектом, є люди, включаючи CEO OpenAI Сема Альтмана, які вважають галюцинації — «не багом, а фічею». Частина привабливості такого продукту, як ChatGPT, полягає в тому, що він може дивувати та часто принаймні здається креативним.

Раніше цього місяця Андрій Карпаті, колишній директор зі штучного інтелекту в Tesla, а нині в OpenAI, опублікував у Twitter аналогічні зауваження: «Мені завжди складно відповісти, коли мене запитують про „проблему галюцинацій“ у LLM. Тому що, у певному сенсі, все, що вони роблять, галюцинують. Це машини мрій».

Своєю чергою Ахмад припускає, що приблизно через 12-18 місяців проблему буде вирішено. Такі самі прогнози дає Альтман. «Коли я говорю „вирішена“, я маю на увазі, що ці моделі будуть галюцинувати менше, ніж людина. Я не маю на увазі, що це не відбуватиметься», — додає Ахмад.

Навіть якщо нинішні мовні моделі не будуть суттєво покращені, Ахмад вважає, що їхній вплив все одно буде колосальним, частково тому, що ми навчимося краще їх використовувати.

«Річ у тім, що нейромережі-трансформери, які ми маємо сьогодні, повністю змінять спосіб ведення бізнесу в усьому світі, — каже Ахмад. — Я заснував компанію, тому що вважаю, що ця технологія має дуже широке застосування і практично будь-яка організація, велика чи маленька, могла б використати її та отримати з неї вигоду».

БІЛЬШЕ ЦІКАВОГО:

Джерело: FastCompany

Що таке галюцинації штучного інтелекту та як компанії вирішують цю проблему

Читайте также: