ByteDance, відома як материнська компанія TikTok, презентувала GR-3 – нову модель VLA (Vision-Language-Action), яка поєднує візуальні, мовні та рухомі навички для вирішення довгострокових та складних завдань в реальному світі. За словами ByteDance, GR-3 здатна на високоточне маніпулювання об’єктами в умовах, що не були попередньо задані в навчанні, і демонструє надзвичайну ефективність при роботі з мінімальними даними про людську поведінку.
GR-3 створена як універсальна модель, яку можна швидко адаптувати до нових умов із мінімальними витратами. Ключовими елементами її підготовки стали спільне навчання на великомасштабних візуально-мовних наборах даних, імітаційне навчання на основі даних рухів роботів та few-shot навчання, тобто навчання з використанням дуже малої кількості даних, на основі людських траєкторій, зібраних за допомогою VR-пристроїв. Це дозволило досягти високих результатів при низьких витратах на збір нових даних.
Окрему роль у навчанні відіграло використання шоломів віртуальної реальності PICO 4 Ultra Enterprise для збору даних рухів людини. Згідно зі звітом, такий підхід забезпечує до 450 різних траєкторій руху за годину, що суттєво перевищує швидкість збирання даних під час роботи звичайних роботів – близько 250/год. Завдяки цьому GR-3 демонструє стабільне підвищення ефективності навіть у незнайомих умовах. Наприклад, використання 10 людських траєкторій на новий об’єкт дозволяє підвищити успішність виконаного завдання з 57,8% до 86,7%.
На практиці GR-3 показала здатність працювати з об'єктами, інструкціями й середовищами, відсутніми в навчальному наборі. Зокрема, модель успішно виконувала завдання “обери та розмісти” у незнайомих просторах, оперувала абстрактними інструкціями та працювала з 45 невідомими раніше об’єктами. Ключовим фактором стало поєднання різних джерел навчання – вилучення будь-якого з них, наприклад, мовно-візуального компонента, призводить до істотного падіння точності.
У реальних сценаріях GR-3 ефективно виконувала складні дії: наприклад, прибирала стіл за єдиною командою “прибрати обідній стіл” або виконувала подальші інструкції послідовно. Усі маніпуляції виконувалися автономно, без додаткових підказок.
Ще одне складне завдання – розвішування одягу передбачало вставлення вішалки у футболку та її розміщення на сушарці. GR-3 успішно виконала це завдання навіть на об'єктах, які не входили до навчального набору, наприклад, футболки замість сорочок. Це свідчить про здатність моделі адаптуватися не лише до різних середовищ чи команд, але й до форми об’єктів.
Усі дії штучний інтелект GR-3 виконував “у тілі” ByteMini – дворучного мобільного робота. Для точного управління рухами використано комплаєнс-контроль – перевірку на відповідність та дотримання правил у реальному часі, що дозволяє перетворювати рухи людини з VR на допустимі рухи робота з урахуванням усіх фізичних обмежень. Такий підхід дає змогу зменшувати ривки та забезпечувати плавність дій.
Попри успішні результати, дослідники відзначають низку обмежень. GR-3 може припуститися помилок у ситуаціях з абсолютно новими поняттями або формами об’єктів, з якими вона не мала попереднього досвіду. Крім того, як і всі моделі, що базуються на імітаційному навчанні, вона вразлива до так званих “out-of-distribution” станів – ситуацій, яких не було в навчальних даних, і з яких вона не завжди може самостійно вийти.
ByteDance планує масштабувати модель і навчальні набори, а також додати елементи навчання з підкріпленням (reinforcement learning), щоб підвищити стійкість і продуктивність GR-3 у складних, нових та нестабільних сценаріях. У підсумку GR-3 з ByteMini позиціюється як крок до створення універсального роботизованого помічника, здатного виконувати широкий спектр завдань у реальному світі – від побутових справ до складних виробничих або логістичних операцій.
Нещодавно повідомлялося про інше досягнення в галузі робототехніки – штучний інтелект, здатний адаптувати ходу чотирилапого робота до незнайомої місцевості. Британські дослідники з Університету Лідса та UCL створили автономну систему, яка, на відміну від класичних алгоритмів, самостійно обирає стиль руху без попереднього налаштування або візуальних сенсорів. Технологія протестована у складних умовах і розглядається як потенційна база для роботів, що працюють у зонах стихійного лиха, на космічних об’єктах чи у віддалених регіонах.