Мала модель штучного інтелекту Microsoft виявилася розумнішою та ефективнішою, ніж великі
Мала модель штучного інтелекту Microsoft виявилася розумнішою та ефективнішою, ніж великі

Мала модель штучного інтелекту Microsoft виявилася розумнішою та ефективнішою, ніж великі

Компанія каже, що на прикладі Orca 2 їй вдалося показати, що поліпшені методи навчання можуть забезпечити кращі результати меншим моделям і допомогти їм досягнути "вищих розумових здібностей, які зазвичай присутні тільки у більших мовних моделях".

Деталі

Microsoft уже відкрила доступ до обох розробок, щоб перші тестувальники могли їх оцінити та досліджувати їхні можливості. Для підприємств з обмеженими ресурсами такі системи можуть виявитися найкращим рішенням.

Для того, щоб навчити невелику модель міркувати так само добре, як велика, розробники вирішили налаштувати базову Llama 2 від Meta за допомогою спеціальним чином зібраного набору даних. Замість того щоб навчати її повторювати поведінку більш здібних моделей — метод імітації — дослідники змушували її обирати інші стратегії вирішення завдань. Наприклад, щоб відповісти на комплексне запитання, малій мовній моделі зручніше спочатку розбити його на складові частини, а не відповідати безпосередньо, як це робить GPT-4.

У випробуваннях на 15 еталонних тестах, що охоплюють завдання на розуміння мови, здоровий глузд, багатоетапне міркування, розв'язування математичних задач, розуміння прочитаного, узагальнення та правдивість, обидві моделі Orca 2 показали чудові результати – кращі, або мінімум не гірші, ніж моделі, розмір яких більший у 5-10 разів.

У середньому за результатами всіх тестів Orca 2 перевершила Llama-2-Chat з 13 і 70 мільярдами параметрів, а також WizardLM з 13 і 70 мільярдами параметрів. Лише в задачах на математику WizardLM з 70 мільярдами параметрів виявився значно кращим.

За словами розробників, метод, який вони використовували для навчання Llama-2, можна застосовувати і для поліпшення інших базових моделей.

Попри те, що Orca 2 має ряд обмежень, потенціал для майбутніх удосконалень очевидний, особливо в покращенні міркувань, спеціалізації, контролю та безпеки менших моделей. Використання ретельно відфільтрованих синтетичних даних для посттренування стає ключовою стратегією в цих удосконаленнях. Оскільки більші моделі продовжують удосконалюватися, наша робота з Orca 2 знаменує собою значний крок у диверсифікації застосувань і варіантів розгортання мовних моделей,
– написала дослідницька група.

З випуском моделей Orca 2 з відкритим вихідним кодом і постійними дослідженнями в цьому напрямку можна з упевненістю сказати, що в найближчому майбутньому з'явиться більше високопродуктивних малих мовних моделей.

Теги за темою
Microsoft
Джерело матеріала
loader
loader