Як створити діпфейк не володіючи програмуванням? Реальний приклад

В останні роки постійно з’являються нові алгоритми, які дозволяють робити все більш переконливі діпфейки. Щоб перетворити знайдений в інтернеті код у відео, потрібні лише час і терпіння. Автор The Verge Джеймс Вінсент (James Vincent) розповів, як він створив діпфейк з синхронізацією губ, володіючи нульовим досвідом в програмуванні.

Для створення діпфейку вам знадобляться відео з потрібним об’єктом і аудіодоріжка, яку ви хочете в нього вставити. Якщо об’єднати їх за допомогою коду, то вийде ролик, в якому кілька кіноперсонажів виконують пісню All Star групи Smash Mouth:

Пошук алгоритмів

Ці відео — не ті діпфейки, які призначені для підриву демократії та інформаційної війни. Вони навіть не особливо переконливі, скоріше, просто смішні.

Як написав у Twitter ірландський дизайнер Джеймс Келлехер (James Kelleher), який створив діпфейк з королевою Великобританії, для цього відео він використовував інструмент, опублікований деякими дослідниками штучного інтелекту. Нещодавно була опублікована стаття з описом методу Wav2Lip. Автори закликають всіх охочих спробувати його. Демоверсія спочатку перебувала у вільному доступі, але зараз для її використання потрібна реєстрація. К. Р. Праджвал (K R Prajwal) з IIIT Hyderabad, один з авторів інструменту, пояснює: це потрібно, щоб його не використали в недобрих цілях. При цьому він визнав, що реєстрація не «утримає серйозного злочинця, який добре розбирається в програмуванні».

«Ми безумовно визнаємо стурбованість людей тим, що ці інструменти знаходяться у вільному доступі, і тому настійно рекомендуємо користувачам коду і сайту вказувати, що відео створені штучно», — сказав Праджвал. Він і його колеги-дослідники відзначають, що програму можна застосовувати для таких корисних цілей, як створення анімації та дублювання відео на нову мову. Праджвал додає: вони сподіваються, що надання коду буде «сприяти плідним дослідженням систем, які зможуть ефективно боротися з його неправильним використанням».

Невдала спроба

Ось як я спочатку спробував зробити діпфейк. Я знайшов відео з Тімом Куком і аудіо з промовою Джима Керрі. Я завантажив відео за допомогою функції запису екрану Quicktime, а аудіо — за допомогою програми Piezo. Потім я взяв обидва файли, завантажив їх на сайт і став чекати, проте нічого не сталося.

З якоїсь причини демоверсії вони не сподобалися. Я спробував зробити нові файли та зменшити їх роздільну здатність, але це нічого не змінило. Це стало важливим моментом в моєму досвіді створення діпфейків: з’являлися випадкові перешкоди, а в мене не було технічного досвіду, щоб їх проаналізувати. Зрештою я здався і покликав Келлехер на допомогу. Він запропонував мені перейменувати файли, щоб видалити всі пробіли. Я так і зробив, і це спрацювало. Тепер у мене було відео з Тімом Куком, який вимовляє текст Джима Керрі для проб до фільму «Лемоні Снікет: 33 нещастя». Це було жахливо — як з точки зору правдоподібності, так і гумору — але все одно це було моє досягнення.

Перехід в Colab

Щоб поліпшити результат, я захотів самостійно запустити алгоритми. Для цього я пішов на GitHub, де творці Wav2Lip розмістили базовий код. Для запуску потрібно було використовувати Google Colab: це еквівалент Google Docs для програмування, який дозволяє працювати з проєктами машинного навчання в хмарі. Знову ж, всю роботу за мене зробили автори алгоритму, які виклали код з простими етапами. Але це не допомогло уникнути помилок.

На щастя, багато проблем допомогло вирішити це відео з YouTube. Подивившись його кілька разів і витративши годину на усунення помилок, я нарешті отримав робочу модель.

Остаточний результат

В ході подальших експериментів я дізнався про деякі особливості програми (наприклад, що їй важче обробляти обличчя, які не дивляться прямо в камеру) і вирішив створити свій діпфейк: відео з Ілоном Маском, який вимовляє слова Тіма Каррі з Command & Conquer: Red Alert 3.

Що мені дав цей досвід? Інструменти для створення діпфейків дійсно доступні, але все одно це не так уже й легко. Алгоритми існують вже багато років, і їх може використовувати будь-який, хто готовий витратити кілька годин. При цьому як і раніше набагато простіше відредагувати відео за допомогою традиційних методів.

З іншого боку, швидкість поширення цієї технології вражає. Алгоритм синхронізації губ Wav2Lip був створений міжнародною групою дослідників, пов’язаних з університетами Індії та Великобританії. Вони поділилися своєю роботою в інтернеті в кінці серпня, і потім вона була підхоплена в Twitter і тематичних розсилках (наприклад, добре відомої Import AI). Дослідники зробили код доступним і навіть створили публічну демоверсію. Протягом декількох тижнів люди в усьому світі почали експериментувати з алгоритмом, створюючи діпфейки заради задоволення або для контент-цілей. За запитом Wav2Lip на YouTube можна знайти навіть перші посібники, демоверсії та безліч інших прикладів діпфейків.

БІЛЬШЕ ЦІКАВОГО:

Джерело: The Verge

Читайте также:

4 з 10 перекладачів втрачають роботу через штучниий інтелект

Перекладач із собачого: які технології допоможуть вам краще зрозуміти вашого вихованця

Штучний інтелект навчився покращувати смак пива

ШІ музика: як стартап Suno робить створення пісень доступним кожному