Складнощі розуміння: чому голосові смарт-помічники так важко опановують нові мови

Всупереч усталеній думці, англійська мова не є найбільш поширеною у світі, навіть більше — вона не є другою. Перше місце займає китайська, друге — іспанська, а англійська є тільки третьою. Далі за популярністю йдуть хінді, арабська, португальська та бенгальська.

Втім ще донедавна голосові інтелектуальні помічники Google Assistant, Apple Siri, Amazon Alexa та Microsoft Cortana підтримували тільки англійську. Минулої осені сервіс Bixby від Samsung почав «розуміти» німецьку, французьку, італійську та іспанську мови, якими загалом розмовляють 616 мільйонів людей у всьому світі. Але для Microsoft Cortana знадобилися роки, поки ця програма почала володіти іспанською, французькою та португальською мовами.

Чому ж додавання нових мов рухається такими повільними темпами? Якщо ви шукаєте відповіді, то спочатку треба зрозуміти технології, які використовуються для навчання алгоритмів розпізнавання мовлення. Голосові помічники є набагато складнішими, ніж це здається на перший погляд.

Вивчення нової мови — це величезна проблема

Опанування голосовим помічником чергової мови — це складний багатокроковий процес, який вимагає значного обсягу досліджень в сегменті розпізнавання мови та голосового синтезу. Перший крок — це перевести голосовий фрагмент в текстовий вигляд (Speech to Text). Другий крок — обробити його з використанням правил природної мови (так звана технологія Natural Language Processing, NLP).

Сьогодні більшість систем розпізнавання мови спираються на глибокі нейронні мережі — системи нейроподібних математичних функцій, які здатні з часом автоматично покращувати якість розпізнавання. Ці мережі прогнозують фонеми або перцептивні відмінності одиниць звуку (наприклад, звуки p, b, d, t в англійських словах pad, pat, та bad). На відміну від старих технологій автоматичного розпізнавання мови (automatic speech recognition, ASR), які спиралися на налаштовану вручну статистичну модель, що обчислювала ймовірність виникнення у фразі певних комбінацій слів, глибокі нейронні мережі переводять звук у символи. Це не тільки знижує коефіцієнт помилок, але й значною мірою усуває необхідність контролю з боку людини.

Але базового розуміння мови недостатньо. Без локалізації голосові помічники не можуть підібрати культурні особливості або, що ще важче, відповідні норми для кожної культури. Вважається, що для побудови модуля, який розуміє запитання користувача для нової мови, потрібно від 30 до 90 днів, в залежності від того, скільки конотацій потрібно охопити. І навіть найбільш популярні на ринку смарт-спікери, подібні до Google й Amazon, мають проблеми з розумінням користувачів з певним акцентом. Нещодавній тест, проведений компанією Vocalize.ai, показав, що пристроям Apple HomePod та Amazon Echo вдалося зрозуміти лише 78% китайських слів, проти 94% англійських та індійських слів.

На базовому рівні деякі мови дуже сильно відрізняються між собою. Наприклад, в англійській мові прикметники зазвичай розташовані перед іменниками, тому слово starfish, сказане вголос, комп’ютер може тлумачити як «зоряна риба», хоча в даному контексті це означає «морська зірка». Всі ці речі потрібно розуміти під час розпізнавання голосового запиту.

Такі завдання досить складно реалізувати для кожної мови. У серпні 2018 року дослідники з підрозділу Amazon AI описали одну з потенційних проблем. Під час типового спілкування з голосовими помічниками фахівці задавали кілька запитань, в яких використовували синоніми певних слів, наприклад, «місто» і «город». Якщо фахівець запитував напрямок до розташування ресторану, якісно підготовлений голосовий помічник повинен був визначити, що має на увазі той користувач.

У той час як передові системи text to speech (текст-в-мову, TTS), такі як Tacotron 2 від Google (що будує моделі синтезу голосу на основі спектрограм), і WaveNet (створює моделі на основі коливань сигналів), вивчають нові мови внаслідок нових розмов, звичайні системи застосовують базу даних фонів — елементарних мовних звуків, комбінації яких використовуються для формування слів та речень. Зчеплення їх в єдиний звук вимагає охоплення додаткових дифонів (одиниць мовлення, що складаються з двох зв’язаних половинок фонів) і трифонів (фон і половина попереднього фону на початку і наступний фон в кінці) під час тривалих сеансів запису. Кількість елементарних мовних одиниць може легко перевищувати тисячу.

Інша методика, відома як параметричний TTS, застосовує математичні моделі для відтворення звуків, які потім збираються в слова і фрази. Сама голосова промова створюється за допомогою вокодера, голосового кодека (кодер-декодер), який аналізує і синтезує вихідні сигнали.

Однак, TTS-генератор, тобто перетворення тексту в голос, є менш важкою проблемою, ніж розуміння голосових запитів. Хмарний TTS-сервіс Amazon Polly підтримує 28 мов, а Microsoft Azure API для розпізнавання мов підтримує быльш як 75.

Google, Microsoft і Amazon вже пропонують декілька голосів на китайській, голландській, французькій, німецькій, італійській, японській, корейській шведській та турецькій мовах, що синтезуються системами штучного інтелекту.

Голосові помічники та мови, що вони підтримують

Google Assistant

На початку 2019 року Google Assistant додав більш ніж 20 нових мов і став лідером серед голосових помічників. Тепер сервіс від Google підтримує майже 30 мов, якими розмовляють у 80 країнах. Це набагато більше, ніж 8 мов та 14 країн у 2017 році.

Ось перелік цих мов: Арабська (Єгипет, Саудівська Аравія); Бенгальська; Китайська (традиційна); Данська; Голландська; Англійська (Австралія, Канада, Індія, Індонезія, Ірландія, Філіппіни, Сінгапур, Таїланд, Великобританія, США); Французька (Канада, Франція); Німецька (Австрія, Німеччина); Гуджараті; Хінді; Індонезійська; Каннада (Дравідійська мова Південної Індії); Італійська; Японська; Корейська; Малаялам (також одна з дравідійських мов Південної Індії); Маратхі; Норвезька; Польська; Португальська (Бразилія); Російська; Іспанська (Аргентина, Чилі, Колумбія, Перу); Шведська; Тамільська; Телугу; Тайська; Турецька; Урду (офіційна мова Пакистану).

Apple Siri

Друге місце займає Siri компанії Apple, яка до січня перемагала Google за кількістю мов. В даний час сервіс підтримує 21 мову (цими мовами розмовляють в 36 країнах), і десятки діалектів для китайської, голландської, англійської, французької, німецької, італійської та іспанської мов.

Перелік мов, що розуміє Siri: Арабська; Китайська (мандаринська, шанхайська та кантонська); Данська; Голландська; Англійська; Фінська; Французька; Німецька; Іврит; Італійська; Японська; Корейська; Малайська; Норвезька; Португальська; Російська; Іспанська; Шведська; Тайська; Турецька.

Проте, смарт-спікер Apple HomePod розуміє меншу кількість мов. Окрім англійської, пристрій отримав підтримку французької, німецького та канадської англійської мови, а з оновленням програмного забезпечення восени минулого року познайомився також з іспанською та канадською французькою.

Microsoft Cortana

Cortana, яка дебютувала на конференції розробників Microsoft Build у квітні 2013 року, а пізніше була інтегрована в Windows 10, навушники, смарт-колонки, Android, iOS, Xbox One і навіть Alexa (завдяки співпраці з Amazon), поки що не підтримує стільки мов, скільки Google Assistant та Siri. Однак, за ці 6 років продукт пройшов вельми довгий шлях. Ось мови, які розпізнає Cortana: Китайська (спрощена); Англійська (Австралія, Канада, Нова Зеландія, Індія, Великобританія, США); Французька (Канада, Франція); Німецька; Італійська; Японська; Португальська (Бразилія); Іспанська (Мексика, Іспанія).

Amazon Alexa

Технологія Alexa доступна на більш ніж 150 продуктах у 41 країні, але поки що цей голосовий помічник розуміє найменшу кількість мов серед інших: Англійська (Австралія, Канада, Індія, Великобританія та США); Французька (Канада, Франція); Німецька; Японська (Японія); Іспанська (Мексика, Іспанія).

Та варто зазначити, що ситуація покращується. Понад 10 тисяч інженерів працюють над різними компонентами NLP-платформи, крім того, Amazon розширює підтримку мов за допомогою краудсорсингу. У минулому році компанія випустила Cleo — гейміфікований сервіс, який нагороджує користувачів за повторювання фраз на місцевих мовах і діалектах, таких як китайська, хінді, тамільська, маратхі, каннада, бенгальська, телугу, гуджараті.

Samsung Bixby

Bixby від Samsung — це голосовий помічник, вбудований у флагманські смартфони серії Galaxy, а також майбутній смарт-динамік Galaxy Home. І хоча смартфони цієї серії доступні у 200 країнах світу, та Bixby підтримує зовсім небагато мов: Англійська; Китайська; Німецька; Французька; Італійська; Корейська; Іспанська.

Samsung зіштовхнувся з серйозними проблемами при створенні власної платформи Natural Language Processing. Видання The Wall Street Journal повідомило у березні 2017 року, що виробник був змушений відкласти випуск англійської версії Bixby, оскільки у розробників компанії виникли складнощі з розумінням певного синтаксису і граматики.

Як підтримка мови може покращитися в майбутньому

Очевидно, що деякі голосові асистенти просунулися далі, ніж інші. Чим це обумовлено? І чи можна пришпорити розвиток інших? На думку експертів, тут може допомогти більший ступінь використання машинного навчання.

Однією з головних проблем, пов’язаних з підтримкою багатомовності, є граматичні правила, які треба враховувати. Більшість моделей Natural Language Processing аналізують речення, визначають частини мови — ідентифікують граматику, і створюють правила, щоб визначити, як інтерпретувати цю граматику.

З «справжнім» стеком нейронних мереж, який загалом не залежить від мовних бібліотек, ключових слів або словників, акцент зміщується від граматичних структур до словникових вставок і реляційних моделей в рамках цих словникових вставок. Тоді стає можливим навчити систему розпізнавання голосу практично будь-якій мові.

Стартап Aiqudo з Сан-Франциско дотримується дещо іншої тактики. Їхня технологія зосереджує увагу на намірах — діях, які має виконати інтелектуальна система на запит користувача — і створює «індекси дій» для категорій, таких як ресторани, фільми та географії, щоб показати дані наміри до програм послуги та функції.

Моделі Aiqudo не мають на меті розуміти всю мову — лише наміри. Тільки користуючись індексами дій вони знають, наприклад, що слово «Мафія» у висловлюванні «Зробіть бронювання на вечерю на завтра о 19:00 в Мафії», швидше за все, відноситься до ресторану, а не до телевізійного фільму.

Без сумніву, Google, Apple, Microsoft, Amazon, Samsung та інші компанії вже використовують нові методи, щоб інтегрувати підтримку нових мов у своїх голосових помічниках. Але деякі з них зробили ривок вперед вже на старті, а інші вимушені боротися з застарілими системами. Ось чому експерти вважають, що потрібен час, перш ніж вони будуть підтримувати ті ж самі мови.

ЧИТАЙТЕ ТАКОЖ:

Джерело: VentureBeat