14 травня відбулася традиційна презентація для розробників Google I/O 2024, на якій компанія щорічно представляє новинки пристроїв та технологій. Очікувався вихід оновленої версії Android 15 та нові смартфони Pixel, проте натомість переважали розробки в галузі штучного інтелекту. Докладніше про них розповімо далі.
Модель для створення зображень Imagen 3
Компанія презентувала нову генеративну модель Imagen 3, яка створює зображення за текстовим запитом. Як її переваги відзначається високий рівень деталізації, генерація реалістичних зображень з меншою кількістю артефактів – у порівнянні з минулими версіями. Модель розуміє природну мову та дозволяє у запиті уточнювати деталі, а також стилістику зображень.

Приклад роботи Imagen 3
Поки що Imagen 3 доступний для обраних авторів за програмою попереднього тестування в ImageFX та при вступі до списку очікування. Планується впровадження нової моделі у Vertex AI.
Veo: генерація відео за допомогою штучного інтелекту
Нова генеративна модель Veo, «відповідь Google на Sora від OpenAI», як пише The Verge, створює відео тривалістю понад хвилину та роздільною здатністю 1080p у різних кінематографічних та візуальних стилях. Нейромережа сприймає запити природною мовою, при цьому може вловлювати деталі за довгими підказками. На кадрах видно плавну зміну кадрів, дозволяючи таким чином створювати ефект реалістичного руху.

Приклад роботи Veo
На даний момент Google пропонує кінематографістам та авторам надіслати запит для попадання до списку очікування та взяти участь у закритому попередньому тестуванні у VideoFX.
Пошук по відео в Google Lens
У Google Lens тепер можна шукати не лише за фотографіями, а й відео. Для цього об’єкт, що цікавить, можна зняти, задати уточнюючі питання, а потім відправити запит. Вже після цього Google почне шукати потрібну інформацію.
Як приклад під час презентації було показано фрагмент, де доповідачка зняла неробочий вініловий програвач, потім поставила питання сервісу про можливі причини. В результаті їй було запропоновано варіанти проблеми та їх вирішення.
Project Astra
Astra — це багатофункціональний помічник на базі штучного інтелекту, який компанія в майбутньому має намір перетворити на віртуального асистента. Взаємодія з ним здійснюється через камеру пристрою. Завдяки цьому він зможе проводити спостереження, запам’ятовувати розташування речей та виконувати завдання від імені користувача.
Оновлення флагманського штучного інтелекту Gemini
На презентації було продемонстровано версію Gemini 1.5 Flash, названу найшвидшою в серії та тій що працює на базі API. Вона спрямована на обробку великих обсягів інформації та високочастотних завдань у широкому масштабі. 1.5 Flash може робити короткі перекази, працює в режимі чату, створює субтитри до зображень та відео, витягує інформацію з довгих документів та таблиць та багато іншого.
Була значно покращена модель Gemini 1.5 Pro. Тепер вона краще виконує такі завдання, як створення коду, планування та логічне мислення, багатоетапні розмови. Творці додали обробку нейромережею аудіо та зображень, а також довге контекстне вікно місткістю до 2 млн токенів, що дозволяє давати складніші інструкції. Gemini 1.5 Pro передбачається інтегрувати в продукти Google, включаючи Gemini Advanced, та додатки Workspace. Оновлення стане доступним платним підписникам наступного місяця.
Gemini Live дозволить поспілкуватися з Gemini, де він виступить у ролі співрозмовника. Нейромережа дасть відповіді на питання, розповість, що бачить навколо, визначаючи об’єкти через камеру в реальному часі. Йдеться не лише про камеру смартфонів, а й про окуляри. Ця функція поки що знаходиться у розробці.
Оновлення Google Search
У пошуковій системі в майбутньому буде впроваджено функцію AI Overviews. При введенні запитів вона створить сторінки результатів із короткими відповідями з інтернету. Для цього сервіс вибере посилання, що відображаються у видачі на запит і за якими зафіксовано більше кліків. Новинка стане доступною для всіх користувачів у США цього тижня.
Що ще цікавого
Крім вищезгаданого, у презентації фігурували інші важливі новинки та оновлення:
- SynthID. Це водяні знаки, за допомогою яких передбачається маркувати фотографії, відео та навіть музику. Це рішення спрямоване на боротьбу з дипфейками та захист авторських прав.
- Circle to Search. Функція допомагає користувачам вирішувати складні математичні завдання, розбиваючи їх на кроки. Для цього потрібно виділити об’єкт, після чого система видасть підказку.
- Google Gems. Представляється як персоніфікований помічник для користувачів платної версії Gemini Advanced.
- Gemini Nano. Це помічник, якого інтегрують в Chrome на десктопних версіях. Передбачається, що з його допомогою можна буде створювати тексти для соціальних мереж, нотатки та багато іншого, причому прямо у вікні браузера.
БІЛЬШЕ ЦІКАВОГО:
- Bard стає Gemini – що цікавого анонсувала компанія Google
- Останні оновлення Gemini: розширення ключових функцій для більшої кількості мов і країн
- 25 років в Пошуку: тенденції пошукових запитів Google за весь час
Джерело: GoogleBlog