Дипфейк-аватари від Synthesia отримають повноцінні тіла

Synthesia готується представити нову версію аватарів з рухомими тілами та руками. Діпфейки зможуть співати та розмахувати мікрофоном під час танцю, вставати з-за столу і ходити по кімнаті, а також висловлювати складніші емоції, такі як хвилювання, страх або нервозність. Оновлення буде доступне ближче до кінця року.

«Це дуже вражає. Ніхто інший не здатний на це», — коментує Джек Сондерс, науковець з Університету Бата, який не брав участі у роботі Synthesia.

За його словами, аватари на повний зріст, які він встиг подивитися, дуже гарні, попри невеликі помилки, наприклад, руки іноді проходять одну через одну. Але «швидше за все, ви не дивитиметеся настільки уважно, щоб це помітити», — каже Сондерс.

У квітні Synthesia випустила свою першу версію гіперреалістичних аватарів. Вони використовують великі мовні моделі, щоб вираз обличчя та тон голосу відповідали змісту тексту, який вони вимовляють. Зовнішній вигляд аватара генерують дифузійні моделі, що застосовуються в системах штучного інтелекту для створення зображень та відео. Однак аватари цього покоління відображаються лише вище пояса, що може позначитися на їхній реалістичності.

Для створення повнотілих аватарів Synthesia розробляє ще більш масштабну модель штучного інтелекту. Користувачам доведеться вирушити до студії, щоб записати свої рухи тіла. Але перш ніж аватари на повний зріст стануть доступні, вийде ще одна версія, з руками та можливістю запису з різних ракурсів. Їхні попередники були доступні лише в портретному режимі та були видні лише спереду.

Інші стартапи, як Hour One, запустили аналогічні аватари з руками. Версія Synthesia, яка буде випущена наприкінці липня, відрізняється трохи більш реалістичними рухами рук та синхронізацією рухів губ.

З оновленням створити власний аватар буде набагато простіше: якщо раніше користувач повинен був вирушити на студію і витратити пару годин на запис обличчя та голосу, новій версії потрібно всього 10 хвилин матеріалів, а з обладнання цифрова камера, портативний мікрофон і ноутбук. Але загалом камери ноутбука буде достатньо.

І якщо раніше доводилося записувати рухи обличчя та голос окремо, то цього разу дані збираються одночасно. Потрібно також прочитати текст, що виражає згоду на запис, і випадково згенерований пароль безпеки.

За словами CEO компанії Віктора Ріпарбеллі, ці зміни нададуть моделям штучного інтелекту, що забезпечують роботу аватарів, більше можливостей при меншому обсязі даних. А ще вони прискорюють процес: якщо раніше потрібно було чекати кілька тижнів, тепер аватар готовий вже наступного дня.

Саморобні аватари поки що не такі реалістичні, як студійні, і користувач не зможе замінити на них фон, каже Олександр Войко, голова відділу корпоративних відносин та політики Synthesia. Анімація рук виконується за допомогою зациклювання, тобто одні й самі рухи рук повторюються відповідно до змісту сценарію.

У березні Вітторіо Феррарі, науковий директор Synthesia, розповів, що штучному інтелекту складно впоратися з руками, це навіть складніше, ніж з обличчям. Це пов’язано з тим, що під час розмови губи рухаються не так сильно і загалом передбачувано, що дозволяє синхронізувати діпфейк з промовою.

Проте жести рук можуть бути різними. З іншого боку, обличчя вимагає пильної уваги до деталей, адже наша увага зосереджена на ньому, тому, наскільки правдоподібно рухаються руки, не так критично.

Нехай і недосконалі, руки та тіла від штучного інтелекту посилюють реалістичність аватара, що в епоху діпфейків та дезінформації створює додаткові ризики. У Synthesia діє сувора політика модерації контенту: перевіряються як клієнти, так і тип контенту, що вони можуть створювати. Наприклад, контент новин можуть створювати тільки акредитовані новинні агентства.

«Ці нові досягнення в галузі технологій створення аватарів — ще один удар по нашій здатності вірити в те, що ми бачимо в інтернеті», — говорить Сондерс.

«Люди мають знати, що нічому не можна довіряти, — каже він. — Synthesia робить це зараз, а через рік те саме робитимуть і інші компанії».

БІЛЬШЕ ЦІКАВОГО:

Джерело: MITtechnologyreview

Читайте также:

Дослідження: люди вже не можуть відрізняти спілкування з людиною та ChatGPT

Технології на Євро-2024, які змінюють футбол

Навіщо AI у телевізорі? 7 фішок свіжої лінійки телевізорів Samsung

Чат-бот, який дозволяє спілкуватися з 60-річною версією себе