/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F52%2F5775f877c5b271efd36dcefb75abc63c.jpg)
Компанія зі ШІ-співробітниками: чому експеримент виявився провальним
Експеримент, який полягав у повному заміщенні людської, штучним інтелектом показує, що говорити про це зарано. Про це пише 24 Канал із посиланням на Futurism.
Жодного справжнього працівника
Навіть найпотужніші моделі ШІ далекі від досконалості.
Вчені створили фіктивну ІТ-компанію під назвою TheAgentCompany. У ній не було жодного справжнього працівника – усі "співробітники" були віртуальними агентами, створеними на базі моделей штучного інтелекту від провідних компаній: Google, OpenAI, Anthropic, Meta та інших.
Вони отримали ролі фінансових аналітиків, менеджерів проєктів, HR-фахівців і програмістів – тобто мали імітувати роботу реального офісу в галузі розробки програмного забезпечення.
Агенти ШІ мали вирішувати типові робочі завдання: аналізувати документи, навідуватися у віртуальні офіси, переглядати файли та писати відгуки на основі зібраного фідбеку. Проте результати виявилися досить скромними.
Як ШІ впорався
Найуспішнішою серед віртуальних працівників стала модель Claude 3.5 Sonnet від Anthropic — вона змогла виконати лише 24% завдань. Щоб упоратися з одним завданням, їй доводилося робити в середньому 30 кроків.
ШІ не може замінити людей / Фото Pexels
Модель Gemini 2.0 Flash від Google показала ще слабший результат – 11,4% успішних завдань, із середньою складністю в 40 дій. А найгіршою виявилася Nova Pro v1 від Amazon, яка справлялася тільки з 1,7% поставлених задач, роблячи близько 20 спроб на кожне.
Де виникло найбільше труднощів
Дослідники пояснили: попри технічну потужність, ці моделі мають спільні вади — відсутність інтуїції, низький рівень соціальних навичок і погане розуміння інтернет-середовища. Крім того, агенти часто самі собі заважали, вигадуючи "короткі шляхи", які в результаті лише ускладнювали процес.
У межах одного із завдань ШІ-модель не змогла знайти потрібну людину для уточнення інформації, тому вирішила просто перейменувати іншого користувача, щоб виконати умову. Такий "креатив" лише підкреслив, наскільки штучному інтелекту поки не вистачає людського глузду.

