Nvidia представила ШІ-модель Fugatto, яка «розуміє і генерує звук так само, як це роблять люди»
Nvidia представила ШІ-модель Fugatto, яка «розуміє і генерує звук так само, як це роблять люди»

Nvidia представила ШІ-модель Fugatto, яка «розуміє і генерує звук так само, як це роблять люди»

Nvidia представила ШІ-модель Fugatto, яка «розуміє і генерує звук так само, як це роблять люди» - Фото 1

Nvidia представила новий експериментальний генеративний ШІ, який вони називають «універсальним інструментом для роботи зі звуком».

Ця модель, відома як Foundational Generative Audio Transformer Opus 1 (або Fugatto), може сприймати текстові підказки та використовувати їх для створення аудіо або зміни наявних музичних, голосових і звукових файлів. Над розробкою моделі працювала міжнародна команда дослідників ШІ, що, за словами NVIDIA, зробило її «багатоакцентні та багатомовні можливості» ще сильнішими.

Рафаель Валле, один із дослідників проєкту та менеджер із прикладних аудіодосліджень у NVIDIA, зазначив: «Ми хотіли створити модель, яка розуміє і генерує звук так само, як це роблять люди».

Компанія навела кілька прикладів, де Fugatto може бути корисною. Наприклад, музичні продюсери зможуть швидко створювати прототипи пісень, які потім легко редагувати, змінюючи стилі, голоси та інструменти.

Люди зможуть використовувати Fugatto для створення матеріалів для вивчення мов з обраним голосом. А розробники відеоігор зможуть створювати різні варіанти заздалегідь записаних звуків, щоб вони відповідали змінам у грі залежно від вибору та дій гравців.

Крім того, дослідники виявили, що модель може виконувати завдання, яких її не навчали, з невеликим додатковим налаштуванням. Наприклад, вона може поєднувати окремо засвоєні команди, щоб генерувати сердитий голос із певним акцентом або звук співу пташок під час грози. Модель також здатна створювати звуки, які змінюються з часом, як-от звук дощу, що наближається.

NVIDIA не повідомила, чи надасть публічний доступ до Fugatto. Але ця модель ШІ — не перша генеративна модель, здатна створювати звуки з текстових підказок. Раніше Meta випустила відкритий ШІ-інструментарій, який може генерувати звуки з текстових описів. А Google має власний ШІ під назвою MusicLM, який перетворює текст на музику.

Спецпроєкти

Джерело: Nvidia, Engadget

Nvidia представила ШІ-модель Fugatto, яка «розуміє і генерує звук так само, як це роблять люди» - Фото 2
Джерело матеріала
loader