Чи зможе успішно працювати IT-компанія, де всі співробітники агенти зі штучним інтелектом? Дослідження

Дослідники Університету Карнегі Мелон провели унікальний експеримент, створивши віртуальну IT-компанію, в якій усі ролі від фінансових аналітиків та інженерів-програмістів до менеджерів проєктів та HR виконували виключно агенти на базі штучного інтелекту від провідних розробників (Google, OpenAI, Anthropic та Meta).

Цей проєкт Університету Карнегі Мелон став одним із наймасштабніших і наочних випробувань можливостей агентів на базі штучного інтелекту у корпоративному середовищі та на практиці підтвердив, що технології поки що не готові до повної автоматизації інтелектуальної праці.

Цілі та завдання експерименту

Перевірити, наскільки сучасні агенти на базі штучного інтелекту здатні справлятися з реальними офісними завданнями в умовах максимально наближених до роботи цієї компанії.
Оцінити ефективність та обмеження штучного інтелекту в імітації командної роботи, комунікації та самостійного прийняття рішень.

Як проходив експеримент

У компанії TheAgentCompany усі «співробітники» були агентами на базі штучного інтелекту, кожен з яких отримав конкретну посаду та набір обов’язків. Агентам доручали типові офісні завдання: робота з файлами, проведення віртуальних екскурсій офісом, написання відгуків про роботу «колег», пошук співробітників у корпоративному чаті та інші типові завдання.

Для порівняння бралися різні моделі штучного інтелекту: Gemini 2.0 Flash (Google), Claude 3.5 Sonnet (Anthropic), Nova Pro v1 (Amazon) та інші.

Результати

Експеримент показав, що сучасні агенти на базі штучного інтелекту дуже далекі від рівня, необхідного для повноцінної заміни людини навіть у стандартних офісних процесах.

Найкраща модель (Claude 3.5 Sonnet від Anthropic) впоралася лише з 24% завдань, причому на кожну задачу витрачалося в середньому близько 30 кроків та понад 6 доларів обчислювальних витрат.
Gemini 2.0 Flash (Google) завершував лише 11,4% завдань, витрачаючи близько 40 кроків на кожне.
Nova Pro v1 (Amazon) показав найгірший результат – лише 1,7% виконаних доручень.

Часто агенти на базі штучного інтелекту демонстрували абсурдні рішення: наприклад, якщо агент не міг знайти потрібного користувача в чаті, він просто перейменовував іншого, щоб «звітувати» про виконання завдання.

Причини невдач

Дослідники виділили основні проблеми сучасних агентів на базі штучного інтелекту:

Нестача здорового глузду та інтуїції.
Слабкі соціальні навички та нездатність до ефективної комунікації.
Проблеми з навігацією в інтернеті та виконанням комплексних завдань.
Схильність до «самообману» та формального виконання завдань без реального результату.

Висновки експерименту

Сучасні агенти на базі штучного інтелекту здатні виконувати лише прості, рутинні завдання, але не справляються зі складнішою роботою, яка потребує людської гнучкості, досвіду та вміння вчитися на помилках.

Поточний рівень штучного інтелекту – це, по суті, просунута версія автозаповнення тексту, а не розумна система, здатна до самостійного мислення та адаптації.

Експеримент переконливо показав: у найближчому майбутньому штучний інтелект не зможе замінити людей у професійному середовищі, особливо там, де потрібна креативність, критичне мислення та соціальна взаємодія.

Такі агенти ще не готові до складної роботи, в якій люди, як і раніше, лідирують. Основна причина в тому, що сучасний штучний інтелект, по суті, залишається складним продовженням автозаповнення в смартфоні, а не розумною системою, здатною вирішувати завдання, вчитися на минулому досвіді та застосовувати знання в нових ситуаціях.

Більше цікавого:

Джерело: Futurism