Алгоритм, який описує зображення для незрячих від Microsoft

14 жовтня Microsoft представила другу версію системи для автоматичного підпису зображень, яка дає їм опис з людською точністю.

Її алгоритм генерує опис зображень (субтитри та підписи) для вебсторінок і документів, спрощуючи життя людям з обмеженими можливостями.

Зверху, було: «Портрет кішки». Знизу, стало: «Сіра кішка з закритими очима»

Першу версію корпорація застосовувала в додатку для людей з вадами зору Seeing AI. Він використовує камеру смартфона для зчитування тексту, ідентифікації людей, опису предметів і оточення. Також Seeing AI вміє описувати вміст зображень в поштових клієнтах, соцмережах і месенджерах.

Демонстрація роботи нового алгоритму

Компанія запустила Seeing AI у 2017 році. Спільнота AppleVis для сліпих і слабозорих три роки поспіль визнавала розробку «кращим основним або допоміжним сервісом для людей з обмеженими можливостями».

Нова система підвищить точність Seeing AI. Вона зможе не тільки ідентифікувати об’єкти, але і знаходити між ними зв’язки, розуміти, як вони взаємодіють. Наприклад, замість «людина, стілець, гітара» алгоритм скаже «людина сидить на стільці й грає на гітарі».

Поліпшену систему розпізнавання Microsoft вмонтує в Word, Outlook і PowerPoint, наприклад, для автоматичного підпису доданих зображень.

Зверху, було: «Чоловік у синій сорочці». Знизу, стало: «Кілька людей в хірургічних масках»

Алгоритм буде доступний розробникам додатків через інструменти комп’ютерного зору Azure Cognitive Services. Seeing AI теж отримає оновлення.

Компанія досягла поліпшення, попередньо навчивши велику модель штучного інтелекту на наборі зображень в парі зі словами-тегами, а не повними підписами (їх генерувати менш ефективно). Кожен з тегів прив’язаний до певного об’єкта на зображенні.

Потім попередньо навчену модель скоригували на наборі зображень з підписами, що дозволило їй складати цілі речення. В остаточному підсумку вона використовувала свій «візуальний словник» для створення підписів до зображень з новими об’єктами.

Новий алгоритм вдвічі краще минулого, використовуваного з 2015 року, запевняє Microsoft. Він посідає перше місце в тесті підписів зображень nocaps — основного бенчмарку в галузі та за балами обганяє команду розробників nocaps.

Тест nocaps складається зі 166 тисяч «людських» підписів до 15 тисяч зображень. Сценарії різні — від спортивних змагань до їжі й свят. Підписи алгоритмів не повинні поступатися людським.

Приклад зображення nocaps

Microsoft відзначає, що її алгоритм перевершує по якості підпис людини, але поки це відбувається тільки на певних вибірках.

На думку одного з творців nocaps Харша Аргавала, це не означає, що корпорація повністю розв’язала проблему: метрики тесту лише приблизно корелюють з людськими. Сам тест покриває невеликий відсоток всіляких варіантів зображень.

«В ідеалі підписи зображень (альтернативний підпис) повинні бути у всіх документах, соцмережах та інтернеті, оскільки це дозволяє людям з ослабленим або втраченим зором отримувати доступ до контенту і спілкуватися. Але, на жаль, це відбувається не завжди», — говорить Сакиб Шейх, менеджер по розробці ПО в команді Microsoft AI.

БІЛЬШЕ ЦІКАВОГО:

Джерело: Microsoft

Алгоритм, який описує зображення для незрячих від Microsoft

Читайте также: