Operator від OpenAI — агент, який може виконувати завдання у браузері за вас

Після кількох тижнів галасу OpenAI випустила свого першого агента зі штучним інтелектом під назвою Operator. Це вебзастосунок, який може виконувати прості завдання в браузері, такі як бронювання квитків на концерт або оформлення замовлення в маркетплейсі. Він працює на базі нової моделі Computer-Using Agent (CUA).

У компанії стверджують, що її інструмент перевершує всі аналоги, включаючи Computer Use від Anthropic (теж може виконувати прості завдання на ПК) та Mariner від Google DeepMind (агент для перегляду вебсторінок, створений на основі Gemini 2.0).

Той факт, що три провідні світові компанії в галузі штучного інтелекту зосередилися на одному напрямку, ясно показує: у перегонах за лідерство в штучному інтелекті виник новий фронт — екрани наших комп’ютерів.

«Перехід від створення тексту та зображень до виконання завдань – це правильний напрямок. Це відкриває додаткові можливості та вирішує старі проблеми». — Алі Фархаді, Генеральний директор Алленівського інституту штучного інтелекту (AI2)

Operator «читає» екран, аналізує пікселі та виконує дії, взаємодіючи з графічними інтерфейсами, як людина. Нейромережа виконує завдання на більшості вебсайтів, повторюючи цикл: сканує дисплей, виконує дію, знову сканує і виконує ще одну дію і таке інше.

CUA ділить завдання на дрібніші етапи й послідовно працює з ними, повертаючись до попередніх, якщо натрапляє на труднощі. В OpenAI відзначають, що нейромережа навчалася з використання методів, схожих на ті, які застосовуються для моделей міркування o1 і o3.

Компанія протестувала агента на низці галузевих завдань. Наприклад, в OSWorld, де перевіряються такі навички, як поєднання PDF-файлів або робота із зображеннями, він показав результат 38,1% порівняно з 22,0% у Computer Use. Для порівняння середній показник у людей становить 72,4%. У тесті WebVoyager, що оцінює ефективність виконання завдань у браузері, Operator набрав 87%, Mariner – 83,5%, а Computer Use – 56%.

Поки новий інструмент може виконувати завдання лише у браузері. OpenAI планує розширити його можливості у майбутньому через API.

Для його використання достатньо ввести інструкції у текстове поле. Однак, замість відкриття браузера на вашому комп’ютері, система відправляє їх у віддалений браузер, що працює на сервері OpenAI. У компанії стверджують, що це підвищує ефективність.

Оскільки агент працює у хмарі, він може виконувати кілька завдань одночасно. У демонстрації один із творців попросив його використати онлайн-платформу OpenTable, щоб забронювати йому столик на двох о 18:30 у ресторані Octavia у Сан-Франциско. Він спритно впорався з цим багатокроковим завданням.

Поки що Operator доступний тільки в США за підпискою ChatGPT Pro. У компанії обіцяють у майбутньому розгорнути інструмент для інших користувачів.

Більше цікавого:

Джерело: MITtechnologyReview

Operator від OpenAI — агент, який може виконувати завдання у браузері за вас

Читайте также: