Механізм пошуку в інтернеті не змінювався протягом десятиліть. І нарешті, дослідники Google представили нову концепцію пошукових систем. Вони будуть працювати на основі мовних моделей, а сам процес пошуку буде схожий на розмову з людиною-експертом.
У 1998 році двоє аспірантів зі Стенфордського університету опублікували статтю, що описує новий тип пошукової системи під назвою Google, яка використовує структуру гіпертексту. Google, як стверджувалося, «розроблений для ефективного сканування та індексації інтернету, а також надає більш відповідні результати, ніж наявні системи».
В основі інновації лежав алгоритм PageRank. Він ранжирував результати пошуку по тому, наскільки вони відповідають запиту користувача, ґрунтуючись на кількості посилань на сторінку. C допомогою PageRank Google відкрив ворота в інтернет, а Сергій Брін (Sergey Brin) і Ларрі Пейдж (Larry Page) побудували однойменну компанію, яка стала однією з найбільших у світі.
Нещодавно команда дослідників Google опублікувала пропозицію щодо модернізації механізму роботи пошукової системи. Вони пропонують замінити метод ранжирування однією великою мовною моделлю зі штучним інтелектом — майбутньою версією BERT або GPT-3. Користувачам більше не доведеться самостійно шукати інформацію в великому списку вебсторінок. Замість цього вони будуть ставити питання, а мовна модель буде їм безпосередньо відповідати. Такий підхід може змінити не тільки пошукові системи, але і те, як ми взаємодіємо з ними.
Однак для початку потрібно усунути проблеми чинних мовних моделей. Наприклад, як вказують дослідники Google й інших компаній, іноді штучний інтелект генерує упереджені та образливі відповіді.
Сучасні пошукові системи
З роками пошукові системи працюють все швидше і точніше. Тепер результати ранжуються за допомогою штучного інтелекту, а Google використовує мовну модель BERT, щоб краще розуміти пошукові запити. Але, крім цих нововведень, всі основні пошукові системи працюють, так само як і 20 років тому.
- Пошуковий робот (програмне забезпечення, яке безперервно сканує інтернет і підтримує список всіх виявлених результатів) індексує вебсторінки.
- Результати, які відповідають запиту користувача, збираються з цього індексу і ранжуються.
Навіть найкращі сучасні пошукові системи все ще відповідають списком документів, що містять запитану інформацію, але не надають саму відповідь. Вони також погано справляються із запитами, які вимагають відповідей з кількох джерел. Уявіть, що ви питаєте раду у лікаря, а він, замість прямої відповіді, надає вам список статей, які потрібно вивчити.
Концепція пошукових систем майбутнього
Дональд Метцлер (Donald Metzler) і його колеги з Google Research хочуть створити пошукову систему, яка виступить в ролі людини-експерта. Вона буде надавати відповіді природною мовою, зібраною з декількох документів, а також підкріплювати їх посиланнями на дані, що підтверджує відповідь на кшталт того, як це робиться в статтях Wikipedia.
Великі мовні моделі частково відповідають цим вимогам. Наприклад, GPT-3 навчений на більшій частині даних з інтернету і сотнях книг. Він витягує інформацію з кількох місць і дає відповіді природною мовою. Однак GPT-3 не відстежує використовувані джерела і не може надати доказів своїх відповідей. В результаті неможливо сказати, наскільки вірна інформація, що надається.
Метцлер і його колеги називають мовні моделі дилетантами: «Вважається, що вони розумні, але їх знання поверхові». На їхню думку, цю проблему можна вирішити, якщо навчити майбутні версії BERT і GPT-3 зберігати записи джерел. На цю мить жодна з подібних моделей не здатна на це. Але в цілому це можливо, і в цьому напрямку вже почалися дослідження.
Думки експертів
Цзиці Чжан (Ziqi Zhang) з Університету Шеффілда вивчає методи пошуку інформації в інтернеті. За його словами, за останні десятиліття було досягнуто прогресу в різних областях пошуку — від відповідей на запити до резюмування документів і структуризації даних. Однак жодна з цих технологій не змінила механізм пошуку, через те, що кожна з них розв’язує конкретну проблему і не піддається узагальненню.
Концепція великий мовної моделі, здатної виконувати всі ці дії одночасно, здається Чжан цікавою. Проте він зазначає, що штучний інтелект погано справляється з технічними та спеціалізованими темами через нестачу прикладів в тексті, за яким вони навчаються. «Ймовірно, в інтернеті в сотні разів більше інформації про електронну комерцію, ніж про квантову механіку», — стверджує Чжан. Крім того, сучасні мовні моделі в основному орієнтовані на англійську мову.
Ханна Гаджішірзі (Hannaneh Hajishirzi), що вивчає обробку природної мови в Вашингтонському університеті, підтримує нову концепцію, додаючи, що вона «повністю змінить процес пошуку». Проте вона вважає, що на практиці можуть виникнути проблеми, через те, що великі мовні моделі вимагають багато пам’яті та обчислювальних ресурсів. «Думаю, вони не замінять індексацію», — стверджує Гаджішірзі.
БІЛЬШЕ ЦІКАВОГО:
- Що буде, якщо Google раптом припинить свою роботу?
- Найпопулярніші запити в пошуковій системі Google у 2020 році
- Сповідь параноїка: чи можна втекти від Google?
Джерело: MIT Technology Review