Що чекає штучний інтелект у 2024 році: 4 головні тренди від MIT

Ці тренди мають практичне значення для нас, звичайних користувачів. До оцінок Массачусетського технологічного інституту (MIT) варто прислухатися: їхні прогнози на 2023 рік справдилися майже в повному обсязі, і поточні прогнози, до речі, вже почали збуватися.

За межами прогнозу є очевидним: великі мовні моделі продовжуватимуть домінувати, регулятори стануть сміливішими, а проблеми штучного інтелекту визначатимуть порядок денний для науковців.

MIT (Massachusetts Institute of Technology) — один із найпрестижніших технічних навчальних закладів США та світу. MIT займає провідні позиції в престижних рейтингах університетів світу, є новатором у галузях робототехніки та штучного інтелекту, а його освітні інженерні програми з року в рік визнаються найкращими у США. Ось головні тренди розвитку штучного інтелекту за версією MIT.

Персональні чат-боти

У 2024 році технологічним компаніям, які вклали значні кошти у генеративний штучний інтелект, доведеться довести, що вони можуть заробляти гроші на своїх продуктах. Для цього гіганти штучного інтелекту, такі як Google та OpenAI, роблять велику ставку на кастомізовані рішення. Обидва розробляють зручні платформи, які дозволяють людям налаштовувати потужні мовні моделі та створювати свої власні міні чат-боти під їх конкретні потреби, без навичок програмування.

У 2024 році генеративний штучний інтелект може дійсно стати корисним для звичайної людини, яка не знається на технологіях, і ми побачимо, як більше людей працює з мільйоном маленьких моделей штучного інтелекту. Моделі штучного інтелекту, такі як GPT-4 чи Gemini, є мультимодальними, тобто можуть обробляти як текст, так й зображення і навіть відео. Це може відкрити низку нових можливостей.

Наприклад, агент нерухомості може завантажити текст зі своїх попередніх оголошень і налаштувати модель для створення аналогічного тексту одним натисканням кнопки. А потім завантажити відео та фотографії нових оголошень і попросити штучний інтелект створити опис для свого нового об’єкта.

Звичайно, успіх залежить від того, чи працюватимуть ці моделі надійно. Мовні моделі часто вигадують, а генеративні моделі пронизані упередженнями. Їх легко зламати, особливо якщо їм можна переглядати вебсторінки. Технологічні компанії поки що не вирішили жодну з цих проблем.

Відео — друга хвиля генеративного штучного інтелекту

Дивно, як швидко нове стає звичним! Перші генеративні моделі для створення зображень стали мейнстримом у 2022 році. Зображення від DALL-E від OpenAI, Stable Diffusion від Stability AI та Firefly від Adobe, наповнили Інтернет картинками від Папи Римського в Баленсіазі до творів мистецтва, відзначених нагородами.

Новий рубіж — перетворення тексту на відео. Рік тому результати були так собі, але технологія швидко покращується. Runway, стартап, який створює генеративні відеомоделі (і компанія, яка створила Stable Diffusion), випускає нові версії своїх інструментів кожні кілька місяців. Остання модель Gen-2, як і раніше, генерує відео тривалістю всього кілька секунд, але якість просто вражає. Кращі кліпи не такі вже й далекі від того, що робить Pixar.

Кіногіганти, наприклад, Paramount та Disney, вивчають можливість використання генеративного штучного інтелекту у своїх виробничих процесах. Ця технологія вже використовується для дубляжу, і це знову відкриває можливості спецефектів.

Runway організував щорічний фестиваль фільмів про штучний інтелект, де демонструються експериментальні фільми, зняті з використанням різних інструментів штучного інтелекту. Цього року призовий фонд фестивалю становить $60 000, а 10 найкращих фільмів будуть показані у Нью-Йорку та Лос-Анджелесі.

У 2023 році у фільмі «Індіана Джонс та циферблат долі» головну роль зіграв літній дипфейк Харрісона Форда. Це лише початок.

За межами великого екрана також набирають популярності технології дипфейків для маркетингових чи навчальних цілей. Наприклад, британська Synthesia створює інструменти, які можуть перетворити разовий виступ актора на нескінченний потік дипфейкових аватарів, що повторюють будь-який сценарій, який ви задасте їм, одним натисканням клавіші. За даними компанії, її технологію зараз використовують 44% компаній зі списку Fortune 100.

Можливість зробити так багато з такими малими коштами ставить перед акторами серйозні питання. Занепокоєння щодо використання та неправильного використання штучного інтелекту студіями лежало в основі страйків SAG-AFTRA минулого року. Але справжній вплив технології лише належить відкрити.

Електоральна дезінформація, створена штучним інтелектом, буде всюди

Дезінформація та дипфейки, створені штучним інтелектом, стануть величезною проблемою, оскільки у 2024 році у виборах зможе брати участь понад половина населення планети. Ми вже бачимо, як політики використовують ці інструменти як зброю.

Найсвіжіший приклад — наприкінці січня 2024 р. створений за допомогою технології дубляжу від ElevenLab аудіодипфейк президента США Джо Байдена закликав людей не голосувати на праймеріз у Нью-Гемпширі.

Стає складніше розпізнати, що саме реально в інтернеті. У вже розжареному та поляризованому політичному кліматі це може мати серйозні наслідки.

Лише кілька років тому створення дипфейка зажадало б передових технічних навичок, але генеративний штучний інтелект зробив це до божевілля простим і доступним, а результати виглядають дедалі реалістичнішими.

Наступний рік стане вирішальним для тих, хто бореться із розповсюдженням такого контенту. Методи відстеження та пом’якшення наслідків його змісту все ще знаходяться на ранній стадії розробки. OpenAI буквально нещодавно ввів маркування контенту (хоч і визнає, що це не є панацеєю) та відмовляє у створенні зображень реальних людей. Соціальні мережі, як відомо, дуже повільно усувають дезінформацію. Але є й “нешкідливі” дипфейки, за допомогою яких їхні творці заробляють гроші — наприклад, кейс із красунею Емілі із сотнею тисяч підписників.

А ми готуємося до масштабного експерименту в реальному часі щодо викриття фейкових новин, створених штучним інтелектом.

Мультизадачні роботи

Натхненні досягненнями генеративного штучного інтелекту, робототехніки починають створювати роботів, здатних виконувати ширший спектр завдань.

За останні кілька років у сфері штучного інтелекту стався перехід від використання безлічі невеликих моделей, кожна з яких навчена виконувати різні завдання (ідентифікувати зображення, малювати та ін.), до єдиних моделей, навчених робити все це та багато чого ще.

Мультимодальні моделі, такі як GPT-4 та Gemini від Google DeepMind, можуть вирішувати як візуальні, так і лінгвістичні завдання. Той самий підхід може працювати й для роботів, тому не потрібно буде навчати одного перевертати млинці, а іншого – відчиняти двері: універсальна модель може дати роботам можливість виконувати кілька завдань. 2023 року з’явилося кілька прикладів робіт у цій галузі.

Проблема у розвитку робототехніки — брак даних. Генеративний штучний інтелект використовує набір даних розміром із весь інтернет. У роботів дуже мало хороших джерел даних, які могли б допомогти їм навчитися виконувати багато промислових або домашніх завдань, які ми від них хочемо.

Леррел Пінто з Нью-Йоркського університету та його колеги розробляють методи, які дозволяють роботам навчатися методом проб та помилок, по ходу виробляючи власні дані для навчання. За останні кілька років великі компанії також почали публікувати великі набори даних для навчальних роботів.

Цей підхід вже показав себе перспективно і в безпілотних автомобілях. Наразі стартап Wayve тестує свої безпілотні автомобілі на вузьких жвавих вулицях Лондона.

БІЛЬШЕ ЦІКАВОГО:

Джерело: MITtechnologyreview

Читайте также:

Головні тренди 2025 року у сфері технологій від Trend Hunter. Частина 2

Головні тренди 2025 року у сфері технологій від Trend Hunter. Частина 1

Google DeepMind навчила робота грати в настільний теніс на рівні людини

Інтерв’юер із застосуванням штучного інтелекту вже не новина або як працюють передові HR сервіси по всьому світу