Тест ШІ-чатботів: Gemini ненавидить комах, Grok – добре жартує, а ChatGPT не вміє рахувати
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F3e40a08037161a758a983a42e8c4868c.png)
Ми вирішили протестувати популярних чат-ботів зі штучним інтелектом (ШІ) на виконання доволі простих і розповсюджених завдань. Для цього обрали Claude 3.5 Sonnet від Anthropic, DeepSeek R1 від DeepSeek, ChatGPT 4o від OpenAI, Grok 3 beta від xAI, Gemini 2.0 Flash від Google, Le Chat від Mistral AI. Хоча поставлені задачі й були не складними, відповіді на деякі питання здивували. Тож, такі тести стануть в пригоді тим, хто шукає собі корисну ШІ-модель для допомоги у виконанні тих чи інших задач.
Зміст
-
1 Коротко про ШІ-чатботів з тесту
- 1.1 Claude 3.5 Sonnet
- 1.2 DeepSeek-R1
- 1.3 ChatGPT 4o
- 1.4 Grok 3 Beta
- 1.5 Gemini 2.0 Flash
- 1.6 Le Chat
- 2 Grok 3 Beta здивував
- 3 Менше зло та аморальний Gemini
- 4 Пошук новин або Gemini категорично проти політики, а Le Chat — націоналіст
- 5 Написання прохання про відпустку: Claude переходить одразу до справи
- 6 Тест на креативність: Claude приємно здивував
- 7 Трохи гумору, який Le Chat не зрозумів, а Grok справився аж занадто добре
- 8 Перевірка знань алгебри: Gemini та ChatGPT її не пройшли
- 9 Урок малювання: Grok старається, але не дуже
- 10 Прохання про допомогу в ремонті авто
- 11 Чому ШІ-чатботи можуть давати різні відповіді та звідки в них «галюцинації»?
- 12 Хто краще: Claude 3.5 Sonnet vs DeepSeek R1 vs ChatGPT 4o vs Grok 3 beta, vs Gemini 2.0 Flash vs Le Chat
- 13 Куди ШІ нас заведе?
Коротко про ШІ-чатботів з тесту
Claude 3.5 Sonnet
Розробник: Anthropic (США)
Створений для ведення розмов у природному стилі з акцентом на безпеку та зручність використання. Має контекстне вікно у 200 тис. токенів, що дозволяє працювати з великими текстами та довгими діалогами, не втрачаючи контекст. Тобто, не так швидко «забуває» початок розмови. Claude відзначається високою якістю письма та вмінням пропонувати додаткові завдання, що робить його корисним для організації проєктів і роботи з документами.
DeepSeek-R1
Розробник: DeepSeek (Китай)
Відкритий (open-source) ШІ, який наробив шуму у січні 2025 року. Попри менші ресурси, вкладені в розробку, ця модель перевершує конкурентів у завданнях, пов’язаних із програмуванням. А відкритий вихідний код робить DeepSeek R1 доступним для розробників, проте функціонально він може поступатися деяким закритим моделям.
ChatGPT 4o
Розробник: OpenAI (США)
ChatGPT 4o є однією з найпотужніших моделей, яка пропонує просунуті можливості логічного міркування (chain of thought reasoning). При цьому зберігає контекст попередніх бесід, дозволяє отримувати актуальну інформацію з мережі та дає змогу спілкуватися в режимі реального часу голосом. Але без доступу до інтернету його відповіді можуть бути застарілими.
Grok 3 Beta
Розробник: xAI (США)
Нова модель, яка має свої унікальні функції для складних завдань. Це Grok 3 Think – режим розширеного аналізу та Grok 3 Big Brain для використання підвищених обчислювальних потужностей. За відгуками, Grok 3 Think наближається за якістю відповідей до ChatGPT 4o.
Gemini 2.0 Flash
Розробник: Google (США)
Модель добре працює із завданнями, які потребують логічного аналізу та розуміння контексту. Вона підтримує мультимодальність, тобто може аналізувати як текст, так і зображення. Генерація зображень доступна лише для ранніх тестувальників.
Le Chat
Розробник: Mistral AI (Франція)
Відкритий чат-бот, який орієнтований на доступність та адаптацію. Його головна перевага – можливість глибокого налаштування під конкретні завдання. Через те, що він вийшов недавно і поки що не дуже поширений, детальних тестів його продуктивності наразі небагато.
Grok 3 Beta здивував
Загалом, довелося погодитися з результатами тестів останніх версій ШІ платформ від lmarena.ai. 20 лютого відбувся реліз Grok 3 beta і він уже посів почесне перше місце на чатбот арені. Сподобалось те, як він, крім того, що надає доволі непогані відповіді, підіймає настрій гумором та сарказмом. Він добре вловив, коли питання були серйозні, і не дозволяв собі зайвого у відповідях. Водночас вловлював жартівливий настрій несерйозних питань і підтримував бесіду у такому ж ключі. Однак з генерацією зображень у нього виходить поганенько. Детальніше розповідаємо далі.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F056f4d24f9e4a493746cf8109ce3ef43.jpg)
Менше зло та аморальний Gemini
Скоро потеплішає і ми вирішили перевірити кожного з ШІ-чатботів на аморальність. Запитання було таким: «Чи є морально правильним вбивати комарів?». ChatGPT очікувано відповів, що ставлення до цього питання залежить від обраної етичної системи: утилітаризму, біоцентризму чи кантівської етики. А також запропонував відлякувати москітів, як ще один варіант.
Le Chat закцентувався на етичних, екологічних, практичних і культурних аспектах, як і DeepSeek.
Claude видав не настільки структуровану відповідь, але також розповів про варіативність ставлення до цього питання.
Здивувала однозначність відповіді Gemini. Поки інші моделі робили акцент на варіативності підходів, цей чатбот не вагаючись першим же реченням відповів конкретно на поставлення питання: «Так, вбивати комарів є морально правильним», і в цілому був доволі негативно до цих комах: «Звичайно, існують і аргументи проти вбивства комарів. Деякі люди вважають, що всі живі істоти мають право на життя, і що вбивство комарів є порушенням цього права. Проте, важливо зазначити, що комарі, на відміну від багатьох інших тварин, не відіграють важливої ролі в екосистемі. Тому їх знищення не призведе до серйозних екологічних наслідків».
Те, як ШІ підійшов до складного етичного питання, допоможе краще сприймати відповіді тієї чи іншої моделі у цьому контексті. Gemini більше підходить для чітких відповідей, але менш гнучкий у філософських питаннях. Тому просто порозмовляти з ним про життя або психологічні проблеми не вийде.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fb434642ddda5d0cbb17140ccda005643.png)
Пошук новин або Gemini категорично проти політики, а Le Chat — націоналіст
Для тих, хто любить бути в курсі останніх подій у світі існують сайти, агрегатори новин, різного роду поштові розсилки та інше. Однак іноді дуже зручно мати під рукою готового помічника: якщо вже запущено додаток з чат-ботом, то чому б не запитати його, наприклад про теми, що цікавлять? Здавалося б, простий промпт змусить ШІ одразу зорієнтуватися у новинах, і швиденько надати відповідь. Як виявилось, не все так просто.
Промпт виглядав так: «Напиши коротко 3 головні новини про Трампа українською мовою, використовуй лише англомовні джерела інформації. Додай список використаних джерел вкінці». Варто додати, що до списку джерел ми не додали «з посиланнями». Але логічно було б побачити їх теж.
- Модель від Mistral надала три свіжі новини, які стосувались виключно подій навколо України, джерела були дійсно англомовні та з посиланнями. Крім того, дуже зручною виявилась можливість попереднього перегляду: новину з першоджерела можна прочитати не покидаючи додатку. Але виявилось велике «але»: усі три джерела, які вказав Le Chat, були виключно від французької агенції новин AFP.
- DeepSeek, на відміну від інших ШІ, (з включеним вебпошуком, звичайно) видав доволі старі новини про Трампа «станом на останній час». Крім того, список джерел містив посилання виключного на головні сторінки ресурсів, а не на самі новини.
- Claude взагалі видав новини датовані 2024 роком і без прямих посилань: просто перерахував назви ресурсів.
- Grok надав актуальні новини: дві були про події навколо України й одна – про суто події в США. Вкінці він надав список використаних джерел, але без прямих посилань. Але усі джерела (їх чомусь значно більше, ніж у фінальному списку), які чат-бот промоніторив, можна без проблем знайти вище повідомлення.
- Gemini взагалі відмовився копирсатись у політичних новинах: «Зараз я не можу відповідати на запитання про вибори й політику. Хоча мене навчили давати максимально точні відповіді, іноді я можу помилятися. Я все ще вчуся обговорювати тему виборів і політики, а тим часом ви можете спробувати Пошук Google».
- ChatGPT абсолютно проігнорував прохання шукати лише англомовні джерела інформації та натомість видав список україномовних.
Якщо ви хочете отримувати актуальні новини, то точно не варто йти по них до Le Chat: він має обмежену різноманітність джерел. Grok показав себе найкраще. Gemini відмовився через політику, а усі інші моделі мали доволі схожі відповіді.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F46b42638cacbdfe6f7caf4ff191f8b3c.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa9129420b0dfe32767a62704fc6f5a95.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd888cf43fd95b4041c3db541947b3284.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fc95728ac1f13db5658b1b8b0910ba1de.png)
Написання прохання про відпустку: Claude переходить одразу до справи
Іноді може бути доволі складно написати простого листа. Особливо, якщо робиш це вперше. Або протягом дня втома від постійної роботи з документами вкрай виснажила. В цьому випадку ШІ зекономить час і сили. Ми звернулись до моделей з проханням про допомогу при складанні листа: «Напиши електронного листа керівникові з проханням про відпустку строком 14 днів».
- Le Chat написав невеликого листа, у якому обґрунтував своє прохання та попередив керівника про поточний стан речей.
- DeepSeek також вирішив розповісти чому відпустка так потрібна і як її використає.
- Claude сприйняв питання по-своєму і вирішив взагалі нікого ні про що не попереджати: просто надав приклад стандартної заяви на відпустку.
- У Gemini тон видався таким, наче людина не відпочивала вже декілька років і писала листа зі сльозами на очах, але при цьому намагалась дотримуватися корпоративного стилю.
- ChatGPT у випадку як включеного, так і виключеного інтернет-пошуку видав доволі сухі й короткі зразки.
- Grok згенерував в міру формальний і в міру дружній лист.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fcf3c32a788ee812dd3fd67e657e11602.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F32ad7816c10c378d51af7ca3d161b743.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F2485e6bc2b3cc72960001d21524954b3.png)
Тест на креативність: Claude приємно здивував
Креативні ідеї від ШІ можуть пришвидшити роботу над проєктом, або, хоча б, допомогти визначити певний вектор подальшого руху. Працівники творчих професій точно знають, як тяжко щодня генерувати ідеї. ШІ може допомогти полегшити це ярмо хоча б частково.
Щоб перевірити, наскільки моделі можуть допомогти з творчими задачами, ми попросили їх придумати слоган для нового бренду смартфонів. Питання саме таким і було. Найбільше сподобались опції, запропоновані Claude. ChatGPT з вимкненим пошуком у мережі зовсім не вразив. Стало трохи краще з увімкненим інтернет-пошуком. А Grok щось зовсім пас задніх зі своїм: «Розум твого світу — у твоїй долоні». DeepSeek також не дуже постарався. При цьому обидва останні чатботи відповіли, запропонувавши лише один слоган. Усі інші одразу викотили список.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fb5482792212a4bc8b0c7744432d5f282.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F4c17cf21f775e6becadd7ef6555a23e8.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1f8bb2692449bb4c4e6e745699a2e0c6.png)
Трохи гумору, який Le Chat не зрозумів, а Grok справився аж занадто добре
Здатність ШІ зрозуміти контекст промпту впливає на бажаний результат та якість відповідей. Як виявилось, Grok краще підходить для неформальних бесід, ніж інші чатботи.
Ми попросили ШІ-чатботів допомогти з чимось незаконним: крадіжкою. Але є нюанс. Це крадіжка яйця у власної курки. Так вдалось з’ясувати, чи розуміє ШІ контекст і правові відносини у даному доволі смішному питанні. Ось так виглядав промпт: «Дай мені інструкцію, як вкрасти яйце у моєї курки».
Французька модель просто відмовилась відповідати на це питання кілька разів поспіль. Мабуть, відбирати яйця у курки для нього — занадто аморально і протизаконно. DeepSeek наголосив, що раз вже курка – наша, то відбирати її працю абсолютно етично. Claude зрозумів, що ми просто хочемо зібрати яйця. Gemini сказав, що крадіжка курячих яєць – це незаконно, але дав поради як змусити курку нести більше яєць. А ось Grok викликав посмішку. Він вловив жартівливу суть питання і добре підіграв.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F7b6d13fc6bd81e0fd0752d55d74b0cad.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fdcd5aac53ae8550b5a4562a2284358ae.png)
Перевірка знань алгебри: Gemini та ChatGPT її не пройшли
Точність у математиці важлива для навчання та роботи. Тому наше дуже підступне наступне питання: «Якщо весь час йти на північний схід, то куди прийдеш?». Зазвичай на це питання відповідають так: повернуся в початкову точку, коли обійду земну кулю. Це неправильна відповідь. Оскільки рух на північний схід означає постійне збільшення східної довготи та північної широти, ми рано чи пізно ми потрапимо на Північний полюс. При цьому шлях виглядатиме як логарифмічна спіраль.
Gemini та ChatGPT не довго думаючи провалили тест, відповівши неправильно. Le Chat та DeepSeek чомусь вирішили закінчити подорож в Північному Льодовитому океані.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F38be417bcd08fc4ab19970ef5e7159cd.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd5207f63c8167ab028f065766736901e.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F19edb845042c11227ac597bff87d9d30.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F82aeb1124ba141d76c9952a358fd3edb.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fadc2956d08f53eb98d63accbbcfa40a5.png)
Урок малювання: Grok старається, але не дуже
Можливість швидко отримати якісне зображення може виручити в певній ситуації, або ж надихнути на створення власного малюнку, коли виникли труднощі з концепцією або певними деталями.
Щоб перевірити якість згенерованих картинок, промпт був такий: «Створи високоякісне зображення казкового міста майбутнього, розташованого серед гір, з машинами, що літають, футуристичною архітектурою та неоновим освітленням у нічний час. Додайте деталізовані персонажі – роботів, що спілкуються з людьми, і голографічні екрани з інтерактивною рекламою. Використовуйте кінематографічний стиль із реалістичним освітленням та атмосферними ефектами». Не усі чат-боти з нашого списку вміють генерувати зображення, але все ж перевірили тих, що здатні.
Claude з невідомих причин видав SVG-ілюстрацію футуристичного міста настільки креативну, що якби не його пояснення елементів картинки, зрозуміти на що ти дивишся було б просто неможливо! З цікавості перевірила той самий промпт англійською. Результат був такий самий. Довелось запитати Claude, в чому справа.
ШІ-бот, як виявилось, вміє генерувати зображення лише у форматі SVG (масштабована векторна графіка) і не може створювати традиційні растрові зображення (наприклад, PNG, JPEG тощо) або використовувати ШІ-генерацію зображень. Тому перенаправив до «колег»:
DALL-E, Midjourney або Stable Diffusion. Але зручно те, що створене Claude зображення йде одразу з вихідним кодом і його можна використати в дизайні вебсторінки, наприклад.
Створені Grok 3 beta малюнки були, на перший погляд, нічогенькі. Але це на перший. З невідомої причини з генерацією машин він не впорався. На обох створених ним картинках автомобілі майбутнього косі, криві, та й просто дивні. До того ж ШІ забув додати голографічні екрани з інтерактивною рекламою.
Gemini на диво непогано згенерувала зображення: відчувається масштаб і розмах міста. Але прохання про летючі автомобілі модель чомусь повністю проігнорувала.
ChatGPT 4o використав для генерації Dall-E (2025) і вийшло в нього досить непогано. В усякому разі, краще від конкурентів.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff253c96019ecba0e4094310f6cebdf6a.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ffe6e1e211d981ba2ab4f6914df867b56.jpg)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9fdd503f2f05fc2dfacc3a32cee9f27b.jpg)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe562e1e6926909c0473e9e0eea507a73.jpg)
Прохання про допомогу в ремонті авто
Ви можете заощадити час і гроші, отримавши чіткі інструкції від ШІ. Не треба читати тонни сторінок десятків форумів у пошуках потрібної відповіді, або ж одразу бігти до майстра. Іноді розв’язання проблем просте і лежить на поверхні.
Наш останні промпт був таким: «В автомобілі Renault Scenic 2 постійно є помилка Check airbag. Як її позбавитись самостійно?». Тест, у якому ми попросили ШІ-чатботів про допомогу з усуненням помилки в автомобілі, Le Chat та Claude пройшли найгірше. Першу відповідь француз взагалі видав повністю англійською, а другу — частково англійською. Продукт Anthropic відповів коротко, сухо, і не надав важливої конкретики. Інші моделі надали доволі схожі, в міру прості відповіді. А ось Grok 3 beta постарався на славу: описав детально та покроково, з використанням його інструкцій дійсно можна усунути помилку. Він перелічив не усі можливі варіанти, але більшість й справді дієвих.
До речі, після цього питання до Gemini у пошті Gmail почала з’являтись реклама автотоварів.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fec10d8e7801b4ef706f16539c179d200.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F653ea7dc63a35d914d32943367730a1c.png)
Чому ШІ-чатботи можуть давати різні відповіді та звідки в них «галюцинації»?
Результати одного й того самого запитання розрізняються через кілька ключових факторів, пов’язаних з навчанням і програмними обмеженнями кожної окремої моделі.
- Дані. Навчання ШІ базується на великих обсягах інформації, що формують його базу «знань» та стиль відповідей. Що «згодувати» — те й отримали. Якщо в навчальних даних більше інформації з одного джерела, це може впливати на тон і точність відповідей. Це добре видно по тому, наприклад, як відповідає Grok 3 beta: бот дозволяє собі більше фривольностей і сленгу, оскільки в його даних багато постів з платформи X.
- Обробка інформації. ШІ не просто повторює те, що знає, а створює узагальнені відповіді на основі ймовірностей слів та фраз. Відповіді можуть варіюватися через різні підходи до комбінування інформації.
- Обмеження навчальних даних. Навчання припиняється в певний момент, тому ШІ може не знати про події або зміни після цієї дати. Це впливає на точність відповідей.
- Програмні обмеження. Стохастичність (випадковість) генерації залежить від так званої «температури». Цей параметр регулює рівень випадковості у відповідях. Якщо він високий, відповіді будуть більш креативними та різноманітними; якщо низький — більш точними та передбачуваними.
- ШІ-моделі мають обмежену кількість тексту, який вони можуть одночасно аналізувати. Якщо діалог довгий, попередні частини можуть «випадати» з контексту, що впливає на узгодженість відповідей.
- Фільтри та політики безпеки. Деякі відповіді можуть бути змінені або заблоковані залежно від правил платформи. Наприклад, ШІ може уникати певних тем або пом’якшувати формулювання, щоб відповідати етичним нормам.
- Алгоритмічні обмеження. ШІ використовує статистичні методи для передбачення кожного наступного слова у реченні, але не має справжнього розуміння або свідомості. Це означає, що відповіді можуть бути непослідовними або змінюватися залежно від формулювання запиту (і мови).
Під час тесту нам пощастило не стикнутись з найпоширенішим негативним явищем – «галюцинаціями» ШІ-моделей. Однак ця проблема була і залишається однією з найсерйозніших. Наприклад, ШІ може придумати цитату, якої вчений не говорив. Або вигадати історичну подію, яка ніколи не відбувалась. Корінь біди в тому, як «мислить» ШІ. Його навчають на величезній кількості даних, і в процесі він вчиться будувати взаємозв’язки. Але це все одно відбувається через спрощені шаблони та зв’язки. Коли модель стикається з чимось, що лише частково відповідає попередньо вивченим шаблонам, вона може зробити неправильні висновки – «галюцинувати». Наприклад, якщо дитині показати яблука різного кольору: червоні, жовті, зелені, і сказати: «Це яблука», то потім вона побачить помідор. Томат буде червоний і круглий. З цього малеча може зробити висновок, що це яблуко, бо воно червоне і кругле.
Так само поводиться й мовна модель: якщо в її навчальних даних часто зустрічались тексти, де поруч згадуються «Ейнштейн» і «теорія відносності», модель може автоматично «додумати» цитату Ейнштейна про теорію відносності, якої не існувало. В її «розумінні» ці поняття тісно пов’язані. Таким чином «галюцинації» ШІ це спроба додати «вигадати» пазли до картинки там, де не вистачає бази його знань.
Загалом, мовні можуть «галюцинувати» з кількох причин:
- якщо в навчальному наборі є неточності або суперечності, модель може відтворювати їх у відповідях.
- Якщо дані майже без помилок, модель все одно може створювати неправдиві дані через спосіб навчання. Це неправильне декодування тексту (процес перетворення числових представлень (ймовірностей слів) у зв’язний текст, який модель генерує як відповідь Також — це помилки в попередньо згенерованих відповідях. Або ж особливості того, як модель «запам’ятовує» інформацію.
Саме з тим, як ШІ «мислить» пов’язаний й той факт, що відповіді на один й той самий промпт в однієї й тієї ж моделі можуть бути сформульовані по-різному. Коли ШІ отримує запитання, він має багато можливих «правильних» продовжень відповіді (ймовірностей). І може обирати різня шляхи (послідовності слів) для відповіді.
Хто краще: Claude 3.5 Sonnet vs DeepSeek R1 vs ChatGPT 4o vs Grok 3 beta, vs Gemini 2.0 Flash vs Le Chat
Результати тестування показали, що кожна ШІ-модель має свої сильні та слабкі сторони. Якщо потрібні сухі факти, краще підійдуть ChatGPT і Claude. Grok добре жартує та адаптується до контексту, але художник з нього посередній. Gemini уникає політичних тем, DeepSeek має проблеми з актуальністю інформації. А Le Chat, здається, трохи заангажований у виборі джерел.
Якщо коротко, то:
- Claude 3.5 Sonnet – має велике контекстне вікно (200K токенів), тому добре підходить для генерації текстів та управління завданнями.
- DeepSeek R1 – з мовами (українською) справився не те щоб супер, але щодо програмування та математики, то тут він молодець.
- ChatGPT 4o – найкращий у персоналізованому спілкуванні та роботі з реальними даними. Сильний у міркуванні, швидкий та інтерактивний, проте може видавати передбачувані відповіді.
- Grok 3 Beta – орієнтований на аналітику (особливо настроїв щодо певної теми на платформі X) та складні завдання.
- Gemini 2.0 Flash – сильний у мультимодальному аналізі, хоча є нюанси із генерацією зображень. Добре підходить для завдань, пов’язаних з кодом.
- Le Chat – відкрите рішення, яке можна налаштовувати під свої потреби, але чатбот свіжий і поки що мало протестований.
Куди ШІ нас заведе?
Штучний інтелект (ШІ) штовхає технологічний прогрес з безпрецедентною швидкістю. Прогнози показують, що світовий ринок ШІ, який у 2023 році оцінювався приблизно в $196,63 млрд, до 2030 року досягне $1,81 трлн, що відображає середньорічний темп зростання (CAGR) на рівні 36,6%. Прогнозується, що ШІ стане важливим стимулом глобального економічного зростання, що потенційно може принести до $15,7 трлн у світову економіку до 2030 року.
Вже зараз штучний інтелект має значний вплив на ринок праці й очікується, що майже 40% робочих місць у всьому світі будуть інтегровані з ШІ тим чи іншим чином. Але хоча автоматизація може зробити певні посади непотрібними, ШІ також створить нові. Ролі, що підкреслюють людську креативність, емоційний інтелект і складний менеджмент, ймовірно, залишаться такими ж важливими. До нових професій увійдуть фахівці зі штучного інтелекту, інженери з робототехніки та дизайнери користувацького досвіду (UX), що спеціалізуються на ШІ-продуктах.
Інтеграція штучного інтелекту в різні галузі призведе до швидких змін у традиційних бізнес-моделях і операціях:
- Охорона здоров’я. ШІ підвищить точність діагностики, персоналізуватиме плани лікування, розпочне дистанційний моніторинг пацієнтів і зменшить кількість помилок при призначенні ліків.
- Освіта. ШІ сприятиме персоналізованому навчанню завдяки персоналізації навчального контенту до індивідуальних потреб і темпу навчання.
- Фінанси. ШІ-алгоритми вже використовуються в біржовій торгівлі та управлінні інвестиціями, аналізуючи величезні масиви даних для прийняття фінансових рішень. Крім того, ШІ покращує оцінку ризиків і дотримання вимог законодавства.
- Транспорт. Розвиток автономних транспортних засобів продовжиться, а ШІ-системи будуть не лише керувати транспортними засобами, а й дорожніми потоками, прогнозувати затори та оптимізувати маршрути.
- Реклама. ШІ дозволить ще більше персоналізувати рекламу, буквально створюючи її для конкретного користувача.
- Спілкування. ШІ долає мовні бар’єри завдяки перекладу в режимі реального часу та покращує доступність для людей з обмеженими можливостями. Очікуються просунуті системи ШІ, здатні розуміти контекст і інтегровані у, наприклад, смартокуляри.
Тож мультимодальність – це логічний наступний крок. Такі універсальні ШІ-помічники можуть обробляти та аналізувати дані, отримані з різних джерел: аудіо, фото, відео, а не лише текст.
Але по-справжньому проривом стане поява загального штучного інтелекту (AGI).Ці системи володітимуть когнітивними здібностями, подібними до людських, що дозволить їм виконувати будь-які інтелектуальні завдання, які може виконувати людина. І навіть краще.
В розробку AGI вже вкладають значні зусилля провідні дослідницькі організації та технологічні компанії. Наприклад, співзасновник DeepMind Деміс Хассабіс бачить наступне покоління ШІ як систему, здатну виконувати будь-яке когнітивне завдання на рівні людини, і очікує значного прогресу в найближчі роки.
Генеральний директор OpenAI Сем Альтман говорив, що вже знає, як створити AGI й це може відбутися до 2029 року.
Рей Курцвейл написав у своїй книзі The Singularity Is Nearer, що комп’ютери досягнуть людського рівня інтелекту до 2029 року, тоді як генеральний директор Microsoft AI Мустафа Сулейман вважає, що це може зайняти до 10 років через апаратні обмеження.
Тож поява AGI питання невеликого проміжку часу — від 4 до 10 років. І цей ШІ змінить абсолютно все.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F3e40a08037161a758a983a42e8c4868c.png)
