Смешное видео вместо картинок: новая нейросеть создает видео по текстовому описанию

30 вересня, 13:57, 2022

Пока кадры получаются неидеальными, однако ИИ обучается и со временем должен улучшить качество работы.

Related video

Корпорация Meta (в прошлом — Facebook) представила новую нейросеть Make-A-Video, которая генерирует видеоролики по текстовому описанию. Разработчики рассказали подробности в своем официальном блоге.

Подразделение Meta AI продвинулась в исследовании искусственного интеллекта и использовала свои наработки для создания нового сервиса. В основу Make-A-Video легла генеративная нейросеть, использующая общедоступные наборы данных, то есть кадры, которые можно без труда найти в Интернете, речь идет о миллионах видеороликов общей длительностью сотни тысяч часов. Вскоре компания планирует выпустить публичную демо-версию своей системы.

"С помощью всего нескольких слов или строк текста Make-A-Video может воплотить в жизнь воображение и создать уникальные видеоролики, полные ярких цветов, персонажей и пейзажей. Система также может создавать видео из изображений или брать существующие видео и создавать новые, похожие на них", — пишет Meta.

Пользователю достаточно примерно описать сцену несколькими предложениями, которые Make-A-Video попытается воссоздать в виде ролика. Как отмечают журналисты The Verge, видео пока получаются нереалистичными, с размытыми краями и "рваной" анимацией, однако это значительный прорыв в мире современных ИИ-технологий.

На сайте размещены несколько примеров уже готовых работ Make-A-Video. Под каждым роликом указан текстовый запрос, на основе которого нейросеть его создавала. Аналитики предполагают, что для демонстрации Meta отобрала наиболее качественные результаты, чтобы представить систему в лучшем свете. Генеральный директор Meta Марк Цукерберг в соцсети Facebook отметил "удивительный прогресс" проекта. Он обратил внимание, что создавать видео значительно сложнее по сравнению с фотографиями, ведь системе нужно не только правильно сгенерировать каждый пиксель, но и предсказать, как изображение должно меняться со временем.

Fullscreen — Примеры работ нейросети Make-A-Video

Фото: Скриншот

В статье, посвященной исследованию, Meta пишет, что ее модель имеет множество технических ограничений, помимо размытия. ИИ не может усвоить информацию точно так же, как человек при просмотре видео, например, в какую сторону движется рука. У Make-A-Video возникают трудности с созданием видео длительностью более пяти секунд, нескольких сцен и работе с высоким разрешением. В настоящее время модель создает видео из 16 кадров с разрешением 64 на 64 пикселя, которые затем увеличиваются в размере с помощью отдельного алгоритма до 768 на 768 пикселей. Кроме того, вместе с информацией из Интернета ИИ мог выучить вредные предубеждения и стереотипы.

The Verge напоминает, что модели искусственного интеллекта могут обучаться — пусть пока видео выглядят хуже созданных людьми, но в будущем их качество должно значительно вырасти. Существующие генераторы изображений по текстовому описанию несколько лет назад также предлагали размытый и непонятный контент, а сегодня выдают фотореалистичные картинки. Пусть в случае с созданием видео прогресс должен идти медленнее, но предварительные результаты могут впечатлить инвесторов и побудить их вкладывать деньги в развитие технологии.

Есть обратная, темная сторона медали — видеоматериалы, созданные ИИ, могут использовать для дезинформации, пропаганды и создания порнографии, чтобы шантажировать людей. Подобное уже наблюдается в случае с технологией дипфейков (Deepfake) и генераторами изображений.

Ранее писали, что нейросеть Stable Diffusion рисует обнаженных знаменитостей по текстовому описанию. В отличие от DALL-E 2 и Midjourney, модель позволяет отключить фильтры, отсеивающие откровенный контент.

Эксперт утверждает, что ИИ научился создавать фотореалистичные изображение, но никогда не сможет заменить фотографов. Джемма Поллари обнаружила недостатки, ограничивающие возможности нейросетей.

Теги за темою

Відео

Джерело матеріала

Фокус

Поділитися сюжетом

Згадувані персони

Марк Цукерберг

Бізнесмен

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Представлено модульний ноутбук Framework 12 з високою міцністю

InternetUA

15 годин тому

У мережі віруситься звук, під який усе "виглядає незаконним": і це не просто так

24tv

15 годин тому

NVIDIA RTX 5060 Ti отримає варіанти 16 ГБ і 8 ГБ та споживатиме 180 Вт, — новий витік

ITC

15 годин тому

"Ти ж мене підманула" зазвучала казахською: блогер розірвав мережу незвичним виконанням

24tv

16 годин тому

Смешное видео вместо картинок: новая нейросеть создает видео по текстовому описанию

Технології

Представлено модульний ноутбук Framework 12 з високою міцністю

У мережі віруситься звук, під який усе "виглядає незаконним": і це не просто так

NVIDIA RTX 5060 Ti отримає варіанти 16 ГБ і 8 ГБ та споживатиме 180 Вт, — новий витік

"Ти ж мене підманула" зазвучала казахською: блогер розірвав мережу незвичним виконанням

Українців попередили про шахрайську схему з QR-кодами: як уберегтися

Швидше і дешевше на 99%: учений знайшов новий спосіб виробництва чипів

В смартфонах Samsung знайшли нову вразливість

Samsung представила SSD 9100 PRO PCIe 5.0 — до 14 800 МБ/с та 8 ТБ від $200

Новий трейлер The Alters зламав четверту стіну і підкорив глядачів

Технології

Представлено модульний ноутбук Framework 12 з високою міцністю

У мережі віруситься звук, під який усе "виглядає незаконним": і це не просто так

NVIDIA RTX 5060 Ti отримає варіанти 16 ГБ і 8 ГБ та споживатиме 180 Вт, — новий витік

"Ти ж мене підманула" зазвучала казахською: блогер розірвав мережу незвичним виконанням

Українців попередили про шахрайську схему з QR-кодами: як уберегтися

Швидше і дешевше на 99%: учений знайшов новий спосіб виробництва чипів

В смартфонах Samsung знайшли нову вразливість

Samsung представила SSD 9100 PRO PCIe 5.0 — до 14 800 МБ/с та 8 ТБ від $200

Новий трейлер The Alters зламав четверту стіну і підкорив глядачів