Генерація зображень з опису або як пряцює нейромережа DALL-E

Ви вже напевно бачили в соціальних мережах сюрреалістичні зображення на кшталт «астронавта, що скаче на коні» або «двох псів-хіміків у захисних окулярах». Можна подумати, що це роботи якогось нового талановитого художника з надто розвиненою фантазією. Але ні – всі ці зображення створені нейромережею DALL-E 2, яку у квітні 2022 року представила компанія OpenAI.

За допомогою неї будь-яка людина може створювати реалістичні зображення з будь-яким сюжетом, причому за дуже короткий час — здається, незабаром митці будуть настільки потрібні, як раніше. Технологія є перспективною, тому доступ до неї відкритий лише обраним людям. Однак, є спосіб хоча б трохи оцінити можливості дивовижної нейромережі – ми розповімо про неї та спробуємо створити свої унікальні картинки.

Як нейромережа DALL-E 2 малює за словами?

Історія нейромережі, яка створює картинки на основі текстового опису, розпочалася у 2021 році. Саме тоді компанія OpenAI створила технології DALL-E, яка створювала ілюстрації. Вже через рік розробники представили її вдосконалену версію DALL-E 2, яка краще розуміє ключові слова для генерації зображень і видає фотореалістичні картинки у вищій роздільній здатності.

Щоб описати принцип роботи нейромережі DALL-E 2 потрібна величезна стаття та знання машинного навчання, тому обійдемося коротким описом максимально простими словами. Насамперед людина пише опис того, яке зображення хоче отримати – ці дані обробляються моделлю CLIP, яка навчена на сотнях мільйонів зображень та пов’язаних із ними текстових описів. Модель CLIP «розуміє» бажання користувача та передає його нейромережі GLIDE, яка створює зображення методом зворотної дифузії. Якщо коротко, у процесі вона накладає на вихідні зображення шум, та потім із цього шуму створює зовсім нову картинку.

Де знайти нейромережа для створення картинок?

На цей час популярністю користується нейромережа DALL-E mini. Але є один мінус — вона підтримує запити лише англійською, але використання перекладача ще ніхто не забороняв. Сайт, що малює за словами нейромережі, знаходиться тут.

Користуватися нейромережею DALL-E mini дуже просто — потрібно лише ввести запит і натиснути кнопку «Run». Створення зображення зазвичай займає трохи більше однієї хвилини, але при занадто великому навантаженні сервер процес може зайняти набагато більше часу.

Малюнки, створені нейромережею

Щоб спробувати нейронну мережу, ми спробували створити зображення, які перегукуються з темами наших статей. Так, наприклад нещодавно ми писали про самоврядний автомобіль від Zoox, нейромережа бачить цей автомобіль ось так.

Потім ми дали завдання нейромережі створити зображення до статті «Цифровий детокс: як перемогти залежність від смартфонів». Отримали такий результат.

А ось як нейромережа уявляє собі тунель для автомобілів від Boring Company Ілона Маска.

А що якщо ввести якусь нісенітницю? Ми спробували й це. Впізнаєте фіолетову панду, яка сидить на кораблі і їсть фломастери?

Спробуйте й ви нейромережу DALL-E. Можливо у вас вийде щось цікаве.

БІЛЬШЕ ЦІКАВОГО:

Джерело: Thred

Генерація зображень з опису або як пряцює нейромережа DALL-E

Як нейромережа DALL-E 2 малює за словами?

Де знайти нейромережа для створення картинок?

Малюнки, створені нейромережею

Читайте также: