Машини тепер зможуть читати емоції людей

Машини тепер можуть розпізнавати злість, страх, відразу та сум. Розпізнавання емоцій наразі переросло з лабораторного проекту в індустрію, що оцінюється в $20 млрд. У чому її плюси та мінуси?

Чи може програма визначити потенційних терористів по міміці обличчя та їх поведінці? Цю гіпотезу протестували у 2003 році співробітники з адміністрації транспортної безпеки США (TSA) у рамках своєї нової програми нагляду SPOT.

Під час роботи над програмою розробники консультувались з Полом Екманом (Paul Ekman), професором психології Каліфорнійського університету, який колись створив свою теорію розпізнавання емоцій по виразу обличчя.

Програму запустили у 2007 році, але насправді з нею було багато проблем. Співробітники поліції вибирали пасажирів для допиту випадково, та деякі арешти не були пов’язані з тероризмом.

Екман спробував виправдатися та заявив, що його методику використали неправильно. Але інші припустили, що провал програми пов’язаний з застарілістю наукової теорії, що була в основі метода Екмана.

В останні роки технологічні компанії стали знову використовувати метод Екмана, аби навчити алгоритми визначати емоції за мімікою обличчя. Декотрі розробники стверджують, що автоматичні системи будуть працювати значно краще людей. Але все-таки багато експертів, які вивчають науку емоцій, стурбовані тим, що ці алгоритми знову зазнають невдачі.

Ваше обличчя: індустрія, яка оцінюється в $20 млрд

Для нової технології потрібні дві техніки: комп’ютерний зір для точного визначення виразу обличчя та алгоритми машинного навчання для аналізу емоційного змісту.

Як правило, другий крок засновується на техніці контрольованого навчання – процесу за допомогою якого алгоритм навчається розпізнавати речі, які він бачив раніше. Ідея в тому, що якщо ви покажете алгоритму тисячі зображень щасливих облич з тегом «щастя», побачивши нову фотографію щасливого обличчя, він відносить її теж до категорії «щастя».

Спеціаліст з інформатики Рана ель Каліоубай (Rana el Kaliouby) стала першою експериментувати з цим підходом. Під час навчання в університеті вона розробила пристрій, що допомагає дітям з синдромом Аспергера зчитувати вирази обличчя та реагувати на них.

У 2006 році разом з директором лабораторії Емоційних обчислень у MIT Розалінд Пікард (Rosalind Picard) вона почала працювати над вдосконаленням технології. У 2009 році вони заснували стартап Affectiva – перший бізнес, що випустив на ринок «штучний емоційний інтелект».

Технологію розпізнання емоцій використовують сьогодні також для моніторингу стану водіїв, UX-тестування для відеоігор та допомоги лікарям оцінювати стан пацієнтів. На даний момент індустрію оцінюють в $20 млрд, та ріст буде лише продовжуватися.

База даних з 7,5 мільйонів облич з 87 країн світу

Прогрес технології розпізнання емоцій залежить від доступу до великої кількості якісних даних.

Згідно з сайтом Affectiva, у їх розпорядженні найбільша база даних емоцій: у ній налічується емоції біля 7,5 млн жителів з 87 країн світу. Емоції відсортовані по 35 категоріям. Співробітники Affectiva дивляться на знімки та переводять вираз обличчя у відповідні їм емоції – якщо вони бачать на фотографії насуплені брови, зжаті губи та вирячені очі, вони відносять її до категорії «злість». Потім відсортовані дані використовуються для навчання алгоритму Affectiva.

Цей метод сортування являється золотим стандартом для оцінки якості відчуттів; він заснований на системі Emfacs, яку Пол Екман (Paul Ekman) та Уоллес В. Фрісен (Wallace V. Friesen) розробили у 1980-х роках.

Наукове коріння системи сягає 1960-х років, коли Екман разом із двома колегами припустили, що існує шість універсальних емоцій – злість, відраза, страх, щастя, сум та подив – котрі можна прослідкувати у будь-якій культурі, проаналізувавши рух м’язів на обличчі.

На основі цих висновків протягом наступних 20 років Екман намагався розробити свій метод розпізнавання емоцій. Основна передумова полягала в тому, що якщо у людини викликалася одна з цих універсальних емоцій, на його обличчі автоматично виявлявся відповідний рух м’язів. Навіть якщо він намагався б приховати свої емоції, справжнє, інстинктивне відчуття все одно виявилось, та навчений спеціаліст міг визначити, що відчуває людина на даний момент.

У другій половині XX століття ця теорія стала основною. Екман почав продавати свою методику ЦРУ, ФБР, Службі митного та прикордонного контролю США та Адміністрації транспортної безпеки.

І все ж багато вчених та психологів, що вивчають природу емоцій, ставлять під сумнів класичну теорію Екмана та всі методи, що з ним пов’язані.

Особливо сильно теорію розкритикувала професор психології у Північно-Східному університеті Ліза Фельдмен Баретт (Lisa Feldman Barrett). Ще в студентські роки вона помітила, що методологія, яка лежить в основі дослідження Екмана, помилкова: надавши людям заздалегідь обрані категорії з емоціями, Екман ненавмисно «підготував» їх до того, щоб вони дали певні відповіді.

Разом з групою колег вона перевірила гіпотезу Екмана; цього разу вона не дала учасникам список заздалегідь підготованих категорій, дозволивши їм таким чином детально описувати переживання та відчуття які вони бачили на фотозображенні. Кореляція між окремими виразами обличчя та емоціями різко знизилася.

З тих пор Баретт розробила свою власну теорію. Згідно з нею, у мозку нема універсальних емоцій, що викликаються зовнішніми подразниками.

«Емоції — це поєднання фізичних властивостей нашого тіла, мозку, культури та виховання, — пише вона. – Вони реальні, але ж не у тому розумінні, що молекули та нейрони. Вони реальні в тому ж сенсі, що і гроші – їх навряд можна назвати ілюзією; це, скоріш за все, продукт людської згоди», — додала вона.

Баретт вважає, що наразі немає сенсу зв’язувати певні вирази обличчя з конкретними емоціями у всіх культурах та контекстах. В той час як одна людина може хмуритись від злості, інша може посміхатися та планувати підступний план помсти. З цієї причини оцінку емоцій краще за все розуміти як динамічну практику, яка містить в собі автоматичні когнітивні процеси, взаємодію між людьми та культурну компетенцію.

«Це дуже велика робота. Емоції – це достатньо складна річ», — стверджує вона.

Каліоубай згодна з цим: емоції – це дійсно дуже складна річ, тому її команда у Affectiva постійно удосконалює багатство та складність їх даних. Для навчання алгоритмів вони використовують відео замість фотографій, а також експериментують з більш контекстуальними даними, такими як голос та інтонації. Вона впевнена, що кращі дані приведуть до більш точних результатів.

Згідно зі словами Мередіт Уіттейкер (Meredith Whittaker), директору дослідницького інституту AI Now, розробка алгоритмів машинного навчання, заснована на застарілій методиці Екмана, може принести серйозну соціальну шкоду.

«Ми вже бачимо, як рекрутингові компанії використовують дані техніки для визначення того, підходить цей кандидат на вільну посаду чи ні. Або як за допомогою схожих технік у школах визначають, чи нудиться учень під час уроку. Ця інформація може завадити людям отримати роботу або вплинути на те, як до дітей будуть відноситись у школі, а це серйозна матеріальна шкода», — пояснила вона.

Каліоубай знає про це та сприймає етику своєї роботи цілком серйозно.

«Дуже важливо вести із суспільством діалог про те, як саме це працює, де це може застосовувати, а де не можна», — пояснила вона.

Каліоубай також розуміє важливість створення різноманітних наборів даних.

«У нашій базі існують зображення представників європеоїдної раси, азіатів, людей з темними відтінками шкіри й навіть людей у хіджабі», — пояснила вона.

Саме тому Affectiva збирає данні з 87 країн світу.

Так співробітники компанії помітили, що в різних країнах вираження емоцій відрізняється інтенсивністю та іншими нюансами. Бразильці, до прикладу, більш широко та довго посміхаються, випромінюючи щастя, а у японців посмішка означає не щастя, а звичайну ввічливість.

Тому Affectiva додала ще один шар аналізу в систему, зібравши так звані етичні стандарти або кодифікаційні припущення про те, як емоція висвітлюється у різних етнічних культурах.

Але саме цей тип алгоритмічного судження, заснованого на таких ознаках, як етична приналежність, хвилює Уіттейкер. Компанії вже роблять прогнози ймовірності того, чи стане людина терористом або педофілом, а декотрі дослідники стверджують, що створили алгоритми, які можуть визначати сексуальну орієнтацію людини за її обличчям.

До того ж, багато досліджень показали, що технології розпізнання облич упереджено ставляться до певних етнічних меншин. Одна з таких робіт, опублікована у грудні, показала, що технологія визначення емоцій характеризує темношкірих людей як людей з більш негативними емоціями.

У відповідь на це Каліоубай сказала, що у системи Affectiva існує «класифікатор етнічної належності», але на даний момент його не використовують. Замість цього вони звертаються до географії – тобто зрівнюють бразильські посмішки з бразильськими, а японські посмішки з японськими.

«Але якщо японець проживає в Бразилії, чи не розпізнає система його як бразильця та упустить нюанс посмішки чисто через ввічливість?» — запитав журналіст The Guardian.

«На цій стадії технологія не досконала на всі 100%», — відповіла вона.

БІЛЬШЕ ЦІКАВОГО:

Джерело: The Guardian

Машини тепер зможуть читати емоції людей

Ваше обличчя: індустрія, яка оцінюється в $20 млрд

База даних з 7,5 мільйонів облич з 87 країн світу

Читайте также: