/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F555fa5ae964bfe5e780185f9df24b768.jpg)
Штучний інтелект GPT-4.5 від OpenAI проходить тест Тьюринга «частіше, ніж справжні люди», — дослідження
Дослідники з Каліфорнійського університету у Сан-Дієго вперше продемонстрували проходження системами штучного інтелекту тристоронньої версії класичного тесту Тьюринга.
Зокрема, у проходженні тесту взяли участь моделі ШІ LLama 3.1-405B від Meta, моделі GPT-4o та GPT-4.5 компании OpenAI, а також найперша у світі програма віртуального співрозмовника ELIZA, розроблена близько 80 років тому Джозефом Вейценбаумом. Серед них версія GPT-4.5 у 73% випадків сприймалась людьми, які проходили тест, як інша реальна людина.
У рамках проходження тристоронньої версії класичного тесту Тьюринга у кожному раунді спілкування брали участь дві людини і одна система штучного інтелекту. Людям за результатами спілкування необхідно було визначити, з ким вони спілкуються, або з ШІ, або з іншою реальною людиною. Учасники отримували два паралельні діалоги з людиною та ШІ, 5 хвилин могли ставити будь-які питання і використовувати будь-які стратегії, щоб зрозуміти, де хто, а потім – мали проголосувати.
Дослідники по 2 рази перевіряли кожну модель за двома базовими системними сценаріями. У першому випадку перед ШІ відкрито ставили завдання ввести людину-учасника в оману і змусити думати, що та спілкується з реальним співрозмовником. У другому випадку ШІ не надавали конкретних інструкцій, що саме треба робити, а просто просили імітувати молодого чоловіка, який цікавиться інтернет-культурою та використовує сленг у спілкуванні.
При цьому саме з другим сценарієм системи штучного інтелекту впорались краще. У сценарії, коли ШІ відкрито ставили завдання ввести реальних співрозмовників в оману, результат успіху GPT-4.5 склав лише 36%. Тоді як, видаючи себе за молодого чоловіка, ця модель успішно змогла ввести в оману обох реальних співрозмовників і показати результати у 73%.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F5577d12fdd8fc75966709d6439b40ce2.jpg)
У ШІ LLama 3.1-405B від Meta результат склав 56%, що дуже непогано, але все ж таки, ближче до випадкового вгадування. Але цікаво, щ результати ELIZA (23%) виявились кращими за результати GPT-4o (21%).
«Люди не змогли відрізнити людей від GPT-4.5 та LLaMa. І 4.5 навіть був оцінений як людина значно частіше, ніж справжні люди!», — коментує результати дослідження його провідний автор, дослідник з Лабораторії мови та пізнання Каліфорнійського університету в Сан-Дієго Кемерон Джонс.
Не дивлячись на те, що сам тест Тьюринга вже значною мірою застарів для реальної оцінки розумових здібностей сучасних систем штучного інтелекту, це дослідження яскраво демонструє, як передові системи ШІ, навчені на великій кількості текстів, складених людиною, навчились реалістично нас імітувати. Навіть якщо штучний інтелект не розуміє суті питання, він вже здатний видати достатньо правдоподібну версію відповіді і змусити нас реально повірити, що перед нами людина.
«Я думаю, що результати дають більше доказів того, що ШІ можуть замінити людей у випадках нетривалої взаємодії, і ніхто не зможе цього помітити. Це може потенційно призвести до автоматизації робочих місць, поліпшення процесів соціальної інженерії та більш загального суспільного перевороту», — вважає Кемерон Джонс.
Наразі проведене дослідження ще чекає на рецензування.
Джерело: Futurism

