Riffusion — модель штучного інтелекту, яка створює музику шляхом її візуалізації

Штучний інтелект продовжує освоювати нові види творчої діяльності. Нейромережа Riffusion, створена розробниками Сетом Форсгреном та Айком Мартіросом, здатна генерувати мелодії за текстовими підказками. Для цього вона створює візуальне подання звуку, а потім перетворює його на аудіо.

Дифузія — метод машинного навчання, що дозволяє створювати зображення. Він використовується у таких відомих моделях, як DALL-E 2 та Stable Diffusion. Цей метод ефективний у різних контекстах і легко піддається тонкому налаштуванню, при якому модель отримує безліч контенту певного типу, щоб створювати більше подібних зразків.

Тонке налаштування можна зробити, наприклад, на акварелі або фотографіях автомобілів. В такому випадку модель найкраще справлятиметься з генерацією зображень в одному з цих жанрів.

Для свого хобі-проекту Riffusion Форсгрен і Мартірос зробили тонке налаштування Stable Diffusion на спектрограмах — візуальних уявленнях звуку, що показують амплітуду різних частот у часі. Це досить точне систематичне уявлення звуку, яке можна знову перетворити на аудіо, виконавши той самий процес у зворотному порядку.

Форсгрен і Мартірос створили спектрограми для багатьох музичних треків і додали до них відповідні позначки: blues guitar (блюз на гітарі), jazz piano (джаз на фортепіано), afrobeat (афробіт) та інші. Ця колекція зображень дала моделі гарне уявлення про те, як «виглядають» певні звуки, а також як їх можна відтворювати та комбінувати.

Процес дифузії мелодії на саксофоні

Модель змогла згенерувати спектрограми, які при перетворенні на звук досить добре відповідали таким підказкам, як funky piano (фортепіано в стилі фанк) та jazzy saxophone (джаз на саксофоні).

Спектрограми генеруються у стандартній для Stable Diffusion роздільній здатності — 512 x 512 пікселів. Таке квадратне зображення є лише коротким уривком. Для трихвилинної пісні був би потрібний набагато ширший прямокутник (наприклад, 512 x 10000 пікселів), але обмеження системи не дозволяють створювати таку спектрограму.

Трохи поекспериментувавши, Форсгрен і Мартірос скористалися особливістю структури великих моделей, подібних до Stable Diffusion, а саме «прихованим простором». Це свого роду нейтральна територія між чіткішими вузлами.

Припустимо, що одна з областей моделі представляє кішок, а інша — собак. Ці області якраз і поділяє прихований простір, який, якщо попросити штучний інтелект намалювати картину, видало б якусь істоту, що об’єднує кішку і собаку.

У випадку Riffusion автори виявили, що нейромережа може створювати мелодію з досить поступовим і природним переходом між бітами, якщо дати їй дві підказки, такі як church bells (дзвін) і electronic beats (електронні біти).

Теоретично можна генерувати й довші уривки, але, за словами Форсгрена, розробники «не намагалися створити класичну трихвилинну пісню з приспівами та куплетами, що повторюються».

З усім тим, Форсгрен вважає, що це можливо. Наприклад, якщо побудувати модель вищого рівня для структури пісні, а окремі уривки генерувати за допомогою моделі нижчого рівня, або навчити нейромережу на зображеннях повних пісень.

Riffusion — скоріше демонстрація можливостей штучного інтелекту, ніж інструмент, орієнтований на винахід музики. Як стверджує Форсгрен, разом із Мартіросом їм було просто приємно спостерігати за тим, як користувачі взаємодіють із розробкою та створюють її нові версії. Ви можете протестувати модель на сайті Riffusion.com.

БІЛЬШЕ ЦІКАВОГО:

Джерело: TechCrunch

Читайте также:

Як користуватися Artbreeder — нейромережею, яка вміє «схрещувати» зображення та створювати нові

OpenAI представила революційну нейромережу SORA, що генерує відео за текстом

Що чекає штучний інтелект у 2024 році: 4 головні тренди від MIT

Як використання штучного інтелекту впливає на нашу продуктивність?