Дослідники виявили, що штучний інтелект вчиться краще брехати, якщо його за це карають
Дослідники виявили, що штучний інтелект вчиться краще брехати, якщо його за це карають

Дослідники виявили, що штучний інтелект вчиться краще брехати, якщо його за це карають

Нове дослідження компанії OpenAI показало, що покарання штучного інтелекту за оманливі чи шкідливі дії не зупиняє його від неналежної поведінки, це просто змушує його краще приховувати брехню.

Деталі

З моменту публічної появи наприкінці 2022 року великі мовні моделі штучного інтелекту (ШІ) неодноразово виявляли свої оманливі та відверто злі вміння. Сюди входять дії, починаючи від звичайної брехні, обману та приховування власної маніпулятивної поведінки до погроз вбивства, викрадення ядерних кодів та створення смертоносної пандемії.

Тепер новий експеримент показав, що відсіяти цю погану поведінку під час тренувального процесу може бути навіть складніше, ніж вважалося спочатку.

Дослідники з OpenAI поставили неопублікованій моделі цілі, які можна досягти шляхом обману чи брехні. Команда виявила, що штучний інтелект бере участь у “зломі винагород” — максимізації своїх винагород шляхом шахрайства.

Проте покарання моделі не змусило її виправити свою поведінку, це лише зробило її ще більш оманливою. Компанія виклала своє дослідження в дописі в блозі, тому воно ще не було рецензовано іншими вченими.

Джерело матеріала
loader