Штучний інтелект GPT-4.5 від OpenAI проходить тест Тьюринга «частіше, ніж справжні люди», — дослідження

3 квітня, 11:01

Depositphotos

Дослідники з Каліфорнійського університету у Сан-Дієго вперше продемонстрували проходження системами штучного інтелекту тристоронньої версії класичного тесту Тьюринга.

Зокрема, у проходженні тесту взяли участь моделі ШІ LLama 3.1-405B від Meta, моделі GPT-4o та GPT-4.5 компании OpenAI, а також найперша у світі програма віртуального співрозмовника ELIZA, розроблена близько 80 років тому Джозефом Вейценбаумом. Серед них версія GPT-4.5 у 73% випадків сприймалась людьми, які проходили тест, як інша реальна людина.

У рамках проходження тристоронньої версії класичного тесту Тьюринга у кожному раунді спілкування брали участь дві людини і одна система штучного інтелекту. Людям за результатами спілкування необхідно було визначити, з ким вони спілкуються, або з ШІ, або з іншою реальною людиною. Учасники отримували два паралельні діалоги з людиною та ШІ, 5 хвилин могли ставити будь-які питання і використовувати будь-які стратегії, щоб зрозуміти, де хто, а потім – мали проголосувати.

Дослідники по 2 рази перевіряли кожну модель за двома базовими системними сценаріями. У першому випадку перед ШІ відкрито ставили завдання ввести людину-учасника в оману і змусити думати, що та спілкується з реальним співрозмовником. У другому випадку ШІ не надавали конкретних інструкцій, що саме треба робити, а просто просили імітувати молодого чоловіка, який цікавиться інтернет-культурою та використовує сленг у спілкуванні.

При цьому саме з другим сценарієм системи штучного інтелекту впорались краще. У сценарії, коли ШІ відкрито ставили завдання ввести реальних співрозмовників в оману, результат успіху GPT-4.5 склав лише 36%. Тоді як, видаючи себе за молодого чоловіка, ця модель успішно змогла ввести в оману обох реальних співрозмовників і показати результати у 73%.

У ШІ LLama 3.1-405B від Meta результат склав 56%, що дуже непогано, але все ж таки, ближче до випадкового вгадування. Але цікаво, щ результати ELIZA (23%) виявились кращими за результати GPT-4o (21%).

«Люди не змогли відрізнити людей від GPT-4.5 та LLaMa. І 4.5 навіть був оцінений як людина значно частіше, ніж справжні люди!», — коментує результати дослідження його провідний автор, дослідник з Лабораторії мови та пізнання Каліфорнійського університету в Сан-Дієго Кемерон Джонс.

Не дивлячись на те, що сам тест Тьюринга вже значною мірою застарів для реальної оцінки розумових здібностей сучасних систем штучного інтелекту, це дослідження яскраво демонструє, як передові системи ШІ, навчені на великій кількості текстів, складених людиною, навчились реалістично нас імітувати. Навіть якщо штучний інтелект не розуміє суті питання, він вже здатний видати достатньо правдоподібну версію відповіді і змусити нас реально повірити, що перед нами людина.

Спецпроєкти

«Я думаю, що результати дають більше доказів того, що ШІ можуть замінити людей у випадках нетривалої взаємодії, і ніхто не зможе цього помітити. Це може потенційно призвести до автоматизації робочих місць, поліпшення процесів соціальної інженерії та більш загального суспільного перевороту», — вважає Кемерон Джонс.

Наразі проведене дослідження ще чекає на рецензування.

Джерело: Futurism

Джерело матеріала

ITC

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Вперше в історії океанографи змогли зняти на відео метрового кальмара G. antarcticus

ZN UA

1 годину тому

Батько Ілона Маска підтвердив, що син хотів купити ракету у РФ: чому виникла така ідея

Фокус

2 години тому

Як швидко очистити батарею від іржі - простий кухонний засіб робить справжнє диво

GlavRed

3 години тому

Перший тест процесора NVIDIA N1X — обганяє Core Ultra 9 285HX та Ryzen AI MAX+ 395

ITC

3 години тому

Штучний інтелект GPT-4.5 від OpenAI проходить тест Тьюринга «частіше, ніж справжні люди», — дослідження

Технології

Вперше в історії океанографи змогли зняти на відео метрового кальмара G. antarcticus

Батько Ілона Маска підтвердив, що син хотів купити ракету у РФ: чому виникла така ідея

Над Україною зійшов «Полуничний Місяць»: видовищні кадри

Новий погляд: дивні ямки на зубах предків людини виявилися не дефектом

У передмісті Ньюкасла в Австралії вчені знайшли таємну колонію коал

Ніхто не знає її призначення: хто й навіщо створив Сонячну колісницю

Топ-5 флагманських Android-смартфонів 2025 року

Як швидко очистити батарею від іржі - простий кухонний засіб робить справжнє диво

Перший тест процесора NVIDIA N1X — обганяє Core Ultra 9 285HX та Ryzen AI MAX+ 395

Технології

Вперше в історії океанографи змогли зняти на відео метрового кальмара G. antarcticus

Батько Ілона Маска підтвердив, що син хотів купити ракету у РФ: чому виникла така ідея

Над Україною зійшов «Полуничний Місяць»: видовищні кадри

Новий погляд: дивні ямки на зубах предків людини виявилися не дефектом

У передмісті Ньюкасла в Австралії вчені знайшли таємну колонію коал

Ніхто не знає її призначення: хто й навіщо створив Сонячну колісницю

Топ-5 флагманських Android-смартфонів 2025 року

Як швидко очистити батарею від іржі - простий кухонний засіб робить справжнє диво

Перший тест процесора NVIDIA N1X — обганяє Core Ultra 9 285HX та Ryzen AI MAX+ 395