ШІ музика: як стартап Suno робить створення пісень доступним кожному

Мета Suno — дозволити людям втілювати у життя ті пісні, що звучать у них у голові. У цьому допомагають дві моделі штучного інтелекту: музику створює нейромережа Suno, а текст та назву вигадує ChatGPT від OpenAI. Треки, створені за допомогою Suno, вже зараз вражають користувачів мережі своєю реалістичністю.

Тільки за останній рік генеративний штучний інтелект досяг значних успіхів у створенні текстів, зображень (наприклад, через Midjourney) і навіть відео, насамперед за допомогою нової нейромережі Sora від OpenAI. Однак у галузі звуку, і музики зокрема, спостерігається відставання.

Схоже, що Suno розв’язує цю проблему. Засновники стартапу мають майже безмежні амбіції — вони бачать світ, у якому створювати музику може кожен.

37-річний Майк Шульман, один зі співзасновників Suno, який здобув докторський ступінь з фізики в Гарвардському університеті, вважає, що в майбутньому мільярд людей по всьому світу платитимуть по $10 на місяць, щоб створювати пісні з Suno. За його словами, зараз слухачів музики значно більше, ніж творців, і Suno виправить цей дисбаланс.

Suno було запущено два роки тому. Його фаундери — Шульман, Кінан Фрейберг, Георг Куско та Мартін Камачо — є експертами в галузі машинного навчання. До 2022 року вони працювали разом в іншій кембридзькій компанії Kensho Technologies, яка займалася пошуком рішень на базі Іштучного інтелекту для складних бізнес-завдань. Шульман та Камачо — музиканти, і їм подобалося грати разом за часів Kensho.

Як працює генератор Suno?

Suno використовує той же загальний підхід, що й великі мовні моделі, такі як ChatGPT: розбиває людську мову на окремі сегменти (токени), вивчає мільйони варіантів використання, стилів та структур, а потім реконструює її на запит.

Однак створювати аудіо, особливо музику, набагато складніше за текст. Лише минулого року у розмові з Rolling Stone експерти з музики, згенерованої на базі штучного інтелекту заявляли, що на створення такого сервісу, як Suno, можуть піти роки.

«Поділити аудіо не так легко, як слова, — розповідає Шульман. — Це хвиля. Це безперервний сигнал. Частота дискретизації високоякісного звуку зазвичай становить 44 або 48 Гц — це, як стверджує Шульман, 48 тис. Токенів за секунду. Тому потрібно придумати, як звести це до чогось розумнішого», — сказав він, додавши, що ще багато роботи.

Зрештою Suno хоче запропонувати можливість генерувати треки не лише за текстовими запитами, а й, як приклад, на основі співу самих користувачів.

Чи виникнуть проблеми з авторськими правами?

OpenAI стикається з численними судовими позовами через те, що для навчання ChatGPT використовує книги, статті новин та інші матеріали, захищені авторським правом.

Засновники Suno не розкривають, на яких саме даних навчають свою модель. За їхніми словами, вона може генерувати реалістичний людський вокал, частково завдяки тому, що навчається не лише на музиці, а й на записах мови.

Suno заявляє, що підтримує зв’язок із великими лейблами, а також виявляє повагу до артистів та інтелектуальної власності. Її інструмент не дозволяє вказувати у запитах стилі конкретних виконавців та не використовує їхнього голосу.

Ще до появи Suno музиканти, продюсери та автори пісень висловлювали стурбованість з приводу того, як штучний інтелект вплине на їхній бізнес. Проте засновники Suno стверджують, що боятися нема чого, використовуючи метафору про те, що люди продовжують читати, навіть якщо вміють писати.

«Ми намагаємося зробити так, щоб мільярд людей були захоплені музикою набагато більше, ніж зараз, — каже Шульман. — Якщо люди набагато більше захоплюються музикою, то вони набагато більше зосереджені на її створенні й стають набагато розбірливішими, це, мабуть, добре для артистів».

«Ми не намагаємося замінити артистів», — додає він.

Де застосовувати інструмент?

Хоча Suno орієнтований лише на любителів музики, які хочуть створювати пісні для розваги, інструмент все одно може значно змінити ситуацію в індустрії. У короткостроковій перспективі це може торкнутися такого прибуткового сегмента ринку, як створення пісень для реклами та телешоу.

Лукас Келлер, засновник компанії Milk and Honey, зазначає, що це не торкнеться відомих пісень.

«Але це безперечно може завдати шкоди решті ринку, — стверджує він. — Я думаю, що, зрештою, це дозволить багатьом рекламним агентствам, кіностудіям, телеканалам та іншим відмовитися від ліцензій».

Крім того, якщо щодо контенту від штучного інтелекту не будуть введені суворі правила, користувачі таких моделей, як від Suno, можуть заповнити стрімінгові сервіси мільйонами своїх творів. Шульман каже, що одного разу Spotify, ймовірно, заборонить завантажувати такі твори, але зазначає, що поки користувачі Suno вважають за краще відправляти свої пісні лише кільком друзям.

Зараз у Suno працює близько 12 співробітників, але компанія планує розширюватись. На верхньому поверсі будівлі, де зараз знаходиться їхній тимчасовий офіс, будується набагато більша постійна штаб-квартира — там буде навіть повноцінна студія звукозапису.

«Здебільшого вона використовуватиметься як кімната для прослуховування, – розповідає Шульман. — Нам потрібне приміщення з гарною акустикою. Але нам усім також подобається створювати музику без штучного інтелекту».

Зараз найбільшим потенційним конкурентом Suno, ймовірно, є Dream Track від Google, який отримав ліцензії, що дозволяють на запит створювати пісні з голосами відомих виконавців. Однак поки що Dream Track доступний лише деяким користувачам, а випущені семпли звучать далеко не так дивовижно, як у Suno.

«Не думаю, що у майбутньому люди захочуть взаємодіяти з музикою за допомогою штучного інтелекту, створюючи нові пісні Біллі Джоела, — каже Шульман. — Ми хочемо, щоб за п’ять років люди творили музику, якої не існує. Ту, що звучить у них у голові».

БІЛЬШЕ ЦІКАВОГО:

Джерело: RollingStone

ШІ музика: як стартап Suno робить створення пісень доступним кожному

Як працює генератор Suno?

Чи виникнуть проблеми з авторськими правами?

Де застосовувати інструмент?

Читайте также: