OpenAI пояснює, чому ChatGPT став надто підлабузницьким
OpenAI пояснює, чому ChatGPT став надто підлабузницьким

OpenAI пояснює, чому ChatGPT став надто підлабузницьким

OpenAI опублікував розбір нещодавніх проблем із підлабузництвом у моделі штучного інтелекту за замовчуванням, що працює на ChatGPT, GPT-4o — проблеми, які змусили компанію скасувати оновлення моделі, випущене минулого тижня.

Протягом вихідних, після оновлення моделі GPT-4o, користувачі соціальних мереж зазначили, що ChatGPT почав реагувати надмірно схвалююче та приємно. Це швидко стало мемом. Користувачі публікували скріншоти ChatGPT, на яких вони аплодували всіляким проблемним,  небезпечним  рішенням та  ідеям .

У дописі на X on Sunday генеральний директор Сем Альтман  визнав  проблему та сказав, що OpenAI працюватиме над виправленнями «якомога швидше». Через два дні Альтман оголосив , що оновлення GPT-4o скасовується, і що OpenAI працює над «додатковими виправленнями» для особливостей моделі.

Згідно з OpenAI , оновлення, яке мало на меті зробити типовий стиль моделі «більш інтуїтивним та ефективним», було занадто ґрунтувалося на «короткостроковому зворотному зв'язку» та «не повністю враховувало, як взаємодія користувачів з ChatGPT розвивається з часом».

«В результаті GPT‑4o схилялася до надмірно підтримуючих, але нещирих відповідей», — написав OpenAI у своєму блозі. «Підлабузницькі взаємодії можуть бути незручними, тривожними та викликати страждання. Ми зазнали невдачі та працюємо над тим, щоб все зробити правильно».

OpenAI заявляє, що впроваджує кілька виправлень, зокрема вдосконалює свої основні методи навчання моделей та системні підказки, щоб явно відвернути GPT-4o від підлабузництва. (Системні підказки – це початкові інструкції, які керують загальною поведінкою моделі та тоном взаємодії.) Компанія також створює більше запобіжних заходів, щоб «підвищити чесність та прозорість [моделі]», і продовжує розширювати свої оцінки, щоб «допомогти виявити проблеми, що виходять за рамки підлабузництва», йдеться у повідомленні.

OpenAI також заявляє, що експериментує зі способами, які дозволять користувачам надавати «зворотний зв'язок у режимі реального часу», щоб «безпосередньо впливати на їхню взаємодію» з ChatGPT та вибирати з кількох налаштувань ChatGPT.

«[М]и досліджуємо нові способи включення ширшого, демократичного зворотного зв’язку до поведінки ChatGPT за замовчуванням», – написала компанія у своєму блозі. «Ми сподіваємося, що зворотний зв’язок допоможе нам краще відобразити різноманітні культурні цінності по всьому світу та зрозуміти, як ви хотіли б, щоб ChatGPT розвивався […] Ми також вважаємо, що користувачі повинні мати більше контролю над тим, як поводиться ChatGPT, і, наскільки це безпечно та можливо, вносити корективи, якщо вони не згодні з поведінкою за замовчуванням».

Источник материала
loader
loader