Голос майбутнього — що заважає розвиватися новим технологіям

Є така приказка: якби собака вмів розмовляти, людина втратила би останнього друга. Чи можна цей жарт застосувати до комп’ютерів, які поволі опановують мовлення? Голосове управління електронікою, перетворення мови в текст і навпаки вже сьогодні трансформує користувацькі звички. Замість натискання кнопок чи управління сенсорним екраном ми лише промовляємо кодове слово, а техніка виконує команду. Що означає поширення цієї технології на глобальному рівні, які загрози чекають на нас в світі «комп’ютерів з голосом» — пропонуємо ознайомитися з дослідженням від редакції The Economist.

455697750

Голосові перспективи

Будь-яка достатньо прогресивна технологія сприймається, як магія, — так стверджував англійський письменник-фантаст Артур Чарльз Кларк (Sir Arthur Charles Clarke). Розпізнавання голосових команд цілком підтверджує тезу видатного британця. Хто з нас не відчуває себе чарівником, промовляючи вголос фрази, які змушують електроніку виконувати задані операції? Смарт-динаміку Amazon Echo пасує роль магічної кришталевої кулі. Пристрій активується, чи то пак відгукується на ім’я «Alexa», може програвати музику, радіостанції, розповідає жарти, відповідає на запитання та навіть управляє іншою електронікою, — все це за вголос озвученим запитом. Станом на кінець минулого року 4% домогосподарств в США вже мали Alexa на своєму столі. Процент досить високий як для пристрою нового формату, що став доступний широкому загалу лише 1,5 роки тому. А ці дані навіть не враховують різдвяні продажі, котрі традиційно дуже успішні для гаджетів.

Голосові асистенти в смартфонах також стають все популярнішими: Apple Siri в США обробляє понад 2 млрд голосових команд щотижня, а близько 20% пошукових запитів в Google з Android-пристроїв, працюючих в Америці, вводяться також з голосу. Розпізнавання мови вже дозволяє без суттєвих перешкод надиктувати мобільному пристрою текст листа чи повідомлення. Навіщо ж друкувати, якщо можна просто розповісти смартфону свою історію? Технологія змінює сам принцип взаємодії людини з технікою. Тепер, коли власник озвучує своє бажання гаджету, їх співпраця стає більш природньою, до якої ми звикли ще зі стародавніх часів.

Всі елементи інтерфейсу в комп’ютері розроблялися з метою полегшення умов праці користувачів. Щоб не вводити повністю цифрову команду, дизайнери вигадували меню і віконця, іконки та сенсорні кнопки, врешті — повністю сенсорні екрани. Можливість «розмовляти з комп’ютером» усуває необхідність розробляти користувацький інтерфейс в принципі. Комп’ютер без екрану й клавіатури може стати більш корисним, потужним та всюдисущим, ніж ми навіть можемо собі уявити.

Однак, голосові команди не зможуть повністю замінити інші методи управління електронікою. Інколи все ж зручніше ввести текст на екрані, аніж надиктувати його вголос — навіть Amazon розробляє пристрій з дисплеєм для додаткового управління Echo. Але саме розпізнавання голосу продовжує активно розвиватися і з’явиться найближчим часом у більшості побутових пристроїв. Наприклад, пральні машинки зможуть відповідати, скільки хвилин ще триватиме цикл прання, а нам не доведеться придивлятися до таймеру на панелі керування. В бізнесі технологія також знадобиться — корпоративні кол-центри та сервіси підтримки користувачів зможуть автоматизувати ще більше операцій. Але для повноцінного використання всього потенціалу голосового керування потрібно вирішити кілька нагальних питань.

Alexa, що таке глибоке навчання?

Технології голосового введення тексту існують давно, але в усі попередні роки вони не були достатньо надійними. Щоб машина розпізнала вашу команду, потрібно навчитися промовляти слова з певною інтонацією та гучністю. Сьогодні тренуємося не ми, а комп’ютер — алгоритми опрацьовують мільйони прикладів людських голосів, акцентів та особливості вимови, щоб з першого разу впізнавати слова. Матеріал для навчання система знаходить в інтернеті. Це — одне з найвизначніших досягнень різновиду технології штучного інтелекту, що має назву «глибоке навчання». Можна констатувати, що не тільки перетворення мови в текст, але й зворотній процес (озвучення електронного тексту) вже звучить природніше, більш звично для слухача. Поступово машини вчаться адекватно відтворювати задану людиною команду у вигляді мови.

Проте, глибоке навчання відповідає лише за здатність правильно відтворювати текст, а не розуміти його. Найголовніша відмінність машинного голосу від живої мови, водночас, є найбільшою перешкодою для розвитку голосового управління. І щоб ця технологія окупувала наші домівки, авто та робочі місця — машини повинні навчитися розуміти мову. Без осягнення контексту, загальної теми розмови алгоритм не зможе виконувати комплексі задачі. Адже сьогодні голосові асистенти справляються з односкладними командами: «Агов, Siri, постав таймер на 10 хв», «Alexa, знайди рецепт для свинячих реберець» тощо. В повсякденній мові рідко вживаються такі прості речення. Як правило, люди оперують складнішими висловами і майже завжди розуміють одне одного.

Над вирішенням проблеми працюють вчені у дослідницьких інститутах, розробники в малих та великих компаніях. Розквіт чатботів є кроком уперед в цьому напрямку: вони вміють підтримувати більш змістовний діалог, вже здатні підібрати клієнту оптимальний страховий поліс, забронювати квитки на літак і готель в пункті призначення.

БІЛЬШЕ ЦІКАВОГО:

Зручність vs. безпека

Користувачі, а також зовнішні регулятори мають зіграти свою роль у розвитку голосових комп’ютерних технологій. Навіть у сьогоднішній примітивній формі вони провокують серйозні протиріччя. З одного боку, системи з голосовим керуванням будуть тим краще, чим більше матимуть персональних даних користувача — календар, електронні листи, облікові записи на сайтах та онлайн-сервісах. Але це створить додаткову загрозу безпеці інформації.

Деякі з пристроїв постійно перебувають в стані пасивного «слухання», аж поки не почують команду активації. В інтернеті активно обговорюють потенційну небезпеку від постійно увімкнених мікрофонів в будинках пересічних громадян. Не всі аудіосистеми відправляють аудіо на хмарний сервер до того, як отримують команду почати роботу. Саме після умовного «ОК, Google» всі голосові запити спрямовуються на сервер, де їх обробляють спеціальні алгоритми. Але важко встановити, хто саме володіє аудіозаписами (як до активації так і після неї) і де вони зберігаються в той чи інший момент часу.

Широкого розголосу набув випадок, коли поліція штату Арканзас звернулася до Amazon з вимогою надати доступ до усіх даних з динаміку Echo, що міг «почути» вбивство в приміщенні. Компанія відмовилася, посилаючись на відсутність достатніх законних підстав для подібного запиту. Фахівці з безпеки даних порівнюють випадок до відмови Тіма Кука надати ФБР доступ до інформації на заблокованому iPhone терориста. Обидва випадки підтверджують необхідність розробки чіткого нормативного регулювання, в інтересах загальної безпеки та захисту приватних даних.

Як показує історія розвитку технологій, споживачі почнуть активно користуватися голосовими сервісами навіть якщо питання захисту інформації не будуть вирішені. Приваблює зручність голосових технологій — цей аспект переважить міркування безпеки. Управління голосом дозволить суміщати роботу з пристроєм під час поїздки за кермом, тренувань і прогулянок, навіть під час домашнього прибирання. Окрім цього, технологія стане в нагоді людям з особливими потребами, які зможуть повноцінно управляти технікою.

Деякі спеціалісти прогнозують зміну ставлення до використання мови взагалі. Коли машини навчаться розпізнавати і перекладати на ходу, пересічним громадянам не обов’язково буде вчити іноземні вислови. Мови меншостей матимуть більше шансів на виживання і збереження, коли ними заговорять комп’ютери. Свого часу поширення сенсорних екранів суттєво вплинуло на взаємодію користувача з технікою, однак голосові технології принесуть більше змін. Вони фактично перетворять електронний пристрій на співбесідника.

Джерело: The Economist