MARS5 TTS: инновационная модель для синтеза речи
Команда Camb AI представила MARS5 TTS, инновационную модель для синтеза речи с открытым исходным кодом, которая предлагает уникальное управление просодией и возможности клонирования голоса, требуя менее 5 секунд аудиовхода. Модель имеет двухступенчатую архитектуру состоящую из 750M авторегрессионной (AR) модели и 450M неавторегрессионной (NAR) модели. MARS5 использует BPE токенизатор, позволяющий точно управлять знаками препинания, паузами и остановками, тем самым продвигая область синтеза речи.
Уникальная архитектура и возможности модели
Архитектура модели MARS5 включает уникальную двухступенчатую AR-NAR конвейер. На первом этапе авторегрессионная трансформаторная модель генерирует грубые (L0) закодированные признаки речи из входного текста и аудиозаписи. Затем эти признаки вместе с текстом и аудио уточняются с использованием мультиномиальной модели вероятностной диффузии (DDPM), чтобы произвести оставшиеся закодированные значения кодовой книги. Наконец, вокодер преобразует выход DDPM в конечное аудио.
Компонент AR MARS5 предсказывает грубые токены L0, которые затем дополнительно уточняются моделью NAR DDPM. Полученный уточненный выход обрабатывается вокодером для генерации конечного аудио. Обучение модели на сыром аудио в сочетании с текстом, закодированным парами байт, позволяет тонко управлять просодией через знаки препинания и капитализацию. Например, добавление запятых вводит паузы, а слова с заглавной буквы подчеркиваются, обеспечивая естественный метод направлять просодию сгенерированного вывода.
Преимущества по сравнению с другими моделями
По сравнению с другими ведущими языковыми моделями, такими как GPT и Gemini, MARS5 выделяется своим специализированным фокусом на синтез речи и уникальной AR-NAR архитектурой. В отличие от GPT и Gemini, которые в основном предназначены для генерации и понимания текста, MARS5 оптимизирована для создания высококачественного управляемого речевого вывода. Использование DDPM на этапе NAR и введение просодического контроля через форматирование текста выделяет ее в области синтеза речи.
Практическое применение и аспекты использования
MARS5 показывает впечатляющие результаты в клонировании голоса и управлении просодией. Система поддерживает два режима вывода: быстрое “поверхностное клонирование”, не требующее транскрипции исходного аудио, а также более медленное, но высококачественное “глубокое клонирование”, которое использует транскрипцию образца. За считанные 5 секунд аудио и отрывок текста MARS5 может создавать речь для различных и сложных сценариев, включая спортивные комментарии и озвучивание аниме, демонстрируя свою универсальность и эффективность.
Для использования MARS5 предоставляется референтный аудиофайл длиной от 2 до 12 секунд, причем 6-секундные образцы дают оптимальные результаты. Система принимает текстовый ввод с знаками препинания и капитализацией для управления просодией. Пользователи могут выполнять “глубокое клонирование” для улучшения качества, предоставив транскрипцию референтного аудио. Возможность обработки сложных просодических сценариев делает модель подходящей для различных применений в сфере развлечений, образования и доступности.
MARS5 TTS представляет собой значительный прорыв в технологии синтеза речи с открытым исходным кодом. Ее инновационная архитектура, сочетающая в себе AR и NAR модели с DDPM, обеспечивает беспрецедентный контроль над синтезом речи. Возможность клонирования голосов с минимальным вводом и создание высококачественной речи с богатой просодикой позиционирует ее как ценный инструмент для разработчиков и исследователей в области искусственного интеллекта и речевых технологий.
Посетите GitHub, чтобы ознакомиться с моделью. Весь кредит за это исследование принадлежит исследователям этого проекта. Не забудьте подписаться на нас в Twitter.
Присоединяйтесь к нашему каналу Telegram и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш невестный длясчик подписк канала.
Не забудьте присоединиться к нашему 45k+ ML SubReddit
Статья опубликована на портале MarkTechPost