Новый метод моделирования языка для синтеза речи на основе непрерывных значений токенов

 MELLE: A Novel Continuous-Valued Tokens-based Language Modeling Approach for Text-to-Speech Synthesis (TTS)

Новый подход к синтезу речи на основе непрерывных токенов

В области больших языковых моделей (LLM) произошло значительное изменение в генерации текста, что побудило исследователей исследовать их потенциал в синтезе звука. Основной вызов заключается в адаптации этих моделей для задач преобразования текста в речь (TTS), сохраняя при этом высокое качество вывода. Текущие методологии, такие как нейронные кодек-модели языка, например VALL-E, сталкиваются с несколькими ограничениями. Это включает в себя более низкую достоверность по сравнению с мел-спектрограммами, проблемы устойчивости, происходящие от случайных стратегий выборки, и необходимость сложных двухпроходных процессов декодирования. Эти вызовы затрудняют эффективность и качество синтеза звука, особенно в задачах TTS с нулевой адаптацией, которые требуют многоязычных, многоголосых и многодоменных возможностей.

Практические решения и ценность

Для решения этих вызовов исследователи предприняли попытки в области синтеза речи. Традиционные методы включают конкатенативные системы, которые собирают аудиофрагменты, и параметрические системы, которые используют акустические параметры для синтеза речи. Энд-ту-энд нейронные TTS системы, такие как Tacotron, TransformerTTS и FastSpeech, упростили процесс, генерируя мел-спектрограммы непосредственно из текста.

Недавние достижения сосредотачиваются на возможностях TTS с нулевой адаптацией. Модели, такие как VALL-E, рассматривают TTS как условную языковую задачу, используя нейронные кодек-коды в качестве промежуточных представлений. VALL-E X расширила этот подход до многоголосных сценариев. Mega-TTS предложила разделение речевых атрибутов для более эффективного моделирования. Другие модели, такие как ELLA-V, RALL-E и VALL-E R, нацелены на улучшение устойчивости и стабильности.

Некоторые исследователи исследовали неавторегрессионные подходы для более быстрого вывода, такие как параллельная схема декодирования SoundStorm и модель диффузии StyleTTS 2. Однако эти методы часто сталкиваются с проблемами поддержания качества звука или эффективной обработки многоголосых, многоголосных сценариев.

Исследователи из Китайского университета Гонконга и корпорации Microsoft представляют MELLE, уникальный подход к синтезу речи, использующий непрерывные токены на основе мел-спектрограмм. Этот метод направлен на преодоление ограничений дискретных кодек-кодов путем непосредственной генерации непрерывных кадров мел-спектрограмм из входного текста. Подход решает две ключевые проблемы: установление соответствующей целевой функции обучения для непрерывных представлений и обеспечение механизмов выборки в непрерывном пространстве.

Для решения этих вызовов MELLE использует функцию потерь регрессии с функцией потерь потока спектрограммы вместо потери перекрестной энтропии. Эта новая функция потерь помогает более эффективно моделировать вероятностное распределение непрерывных токенов. Кроме того, MELLE включает вариационное вывод для облегчения механизмов выборки, улучшая разнообразие вывода и устойчивость модели.

Модель работает как однопроходная система TTS с нулевой адаптацией, авторегрессивно предсказывая кадры мел-спектрограммы на основе предыдущих мел-спектрограмм и текстовых токенов. Этот подход направлен на устранение проблем устойчивости, связанных с выборкой дискретных кодек-кодов, что потенциально предлагает улучшенную достоверность и эффективность в синтезе речи.

Архитектура MELLE интегрирует несколько инновационных компонентов для эффективного синтеза речи из текста. Она использует слой встраивания, авторегрессивный декодер Transformer и уникальный модуль выборки латентных переменных, улучшающий разнообразие вывода. Модель включает слой предсказания остановки и пост-сеть свертки для улучшения спектрограммы. В отличие от нейронных кодек-моделей, MELLE не требует отдельной неавторегрессивной модели, что улучшает эффективность. Она может генерировать несколько кадров мел-спектрограммы за один шаг, дополнительно улучшая производительность. Архитектура завершается вокодером для преобразования мел-спектрограммы в волну, предлагая упрощенный, однопроходный подход, который потенциально превосходит предыдущие методы как по качеству, так и по эффективности.

MELLE демонстрирует превосходную производительность в задачах синтеза речи с нулевой адаптацией по сравнению с VALL-E и его вариантами. Она значительно превосходит базовый VALL-E по устойчивости и сходству диктора, достигая 47,9% относительного снижения WER-H в задаче продолжения и 64,4% снижения в задаче между предложениями. В то время как VALL-E 2 показывает сопоставимые результаты, MELLE проявляет лучшую устойчивость и сходство диктора в задаче продолжения, подчеркивая ее превосходную способность к контекстному обучению.

Производительность MELLE остается постоянно высокой даже с увеличенными коэффициентами снижения, что позволяет более быстрое обучение и вывод. Модель превосходит большинство последних работ как по устойчивости, так и по сходству диктора, даже с более крупными коэффициентами снижения. MELLE-limited, обученная на более малом корпусе, все равно превосходит VALL-E и его варианты, за исключением VALL-E 2. Использование множественной выборки с более крупным коэффициентом снижения может улучшить производительность, сокращая время вывода, как показывают результаты пятикратной выборки, демонстрирующие постоянно высокую устойчивость при различных настройках коэффициента снижения.

Это исследование представляет MELLE, представляющую значительный прогресс в синтезе речи с нулевой адаптацией, представляя подход к языковому моделированию на основе непрерывного акустического представления. Путем непосредственного предсказания мел-спектрограмм из текстового содержания и речевых подсказок он устраняет необходимость в дискретной векторной квантизации и двухпроходных процедурах, характерных для нейронных кодек-моделей языка, таких как VALL-E. Включение латентной выборки и функции потерь потока спектрограммы позволяет MELLE производить более разнообразные и устойчивые предсказания. Эффективность модели может быть дополнительно улучшена путем настройки коэффициента снижения для более быстрого декодирования. Особенно стоит отметить, что MELLE достигает результатов, сравнимых с человеческой производительностью в субъективной оценке, что является существенным шагом в области синтеза речи.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Запуск BingoGuard: Новый уровень модерации контента от Salesforce AI

    Обзор BingoGuard Salesforce AI представила BingoGuard, инновационную систему модерации контента, использующую большие языковые модели (LLMs). Эта система решает проблемы традиционной модерации, обеспечивая более точную классификацию контента. Ключевые особенности BingoGuard Гранулярная классификация: BingoGuard классифицирует…

  • Улучшение принятия решений в Гомоку с использованием ИИ и обучения с подкреплением

    Улучшение стратегического принятия решений с помощью ИИ в Гомоку Введение Искусственный интеллект (ИИ) может значительно улучшить бизнес-процессы, используя технологии, подобные большим языковым моделям (LLM). Эти модели способны анализировать данные и генерировать идеи, что…

  • PaperBench: Новый стандарт оценки ИИ в исследованиях машинного обучения

    Введение Быстрые достижения в области искусственного интеллекта (ИИ) подчеркивают необходимость эффективных методов оценки. Использование PaperBench может значительно улучшить способность вашей компании использовать ИИ для автоматизации исследовательских задач. Что такое PaperBench? PaperBench — это…

  • Снижение галлюцинаций в больших моделях визуально-языковых систем: практические бизнес-решения

    Снижение галлюцинаций в больших моделях визуального и языкового понимания Понимание проблемы галлюцинаций в LVLM Большие модели визуального и языкового понимания (LVLM) являются мощными инструментами, которые объединяют визуальные и текстовые данные для выполнения задач,…

  • Запуск передовой многомодальной модели встраивания для визуального извлечения документов

    Внедрение многомодальной модели Nomic Модель Nomic Embed Multimodal предлагает компании новые возможности для улучшения обработки документов. Она позволяет эффективно извлекать информацию как из текста, так и из изображений, что значительно упрощает рабочие процессы.…

  • Многоходовое Внимание: Революция в Понимании Языковых Моделей

    Введение в механизмы внимания в языковых моделях Языковые модели (LLMs) активно используют механизмы внимания для эффективного извлечения контекстной информации. Однако традиционные методы внимания ограничены однотокеновым вниманием, что может затруднять понимание сложных языковых зависимостей.…

  • Amazon Nova Act: Революция в автоматизации веб-задач

    Введение в Amazon Nova Act Amazon представил революционную модель ИИ под названием Nova Act, предназначенную для автоматизации различных веб-задач. Этот ИИ-агент может автоматизировать процессы, такие как заполнение форм, навигация по интерфейсу и управление…

  • Руководство для начинающих по терминалу и командной строке: основные команды и советы

    Практические бизнес-решения с использованием Terminal/Command Prompt Введение Terminal и Command Prompt – это мощные инструменты для взаимодействия с компьютерами, которые могут значительно повысить производительность и эффективность в бизнесе. Преимущества использования Terminal/Command Prompt Эффективная…

  • Гибридная система вознаграждений ByteDance: улучшение RLHF с помощью RTV и GenRM

    Введение в Гибридную Систему Наград в ИИ Недавнее исследование от ByteDance представляет значительное достижение в области искусственного интеллекта через гибридную систему наград. Эта система объединяет Проверяющие Задачи Размышления (RTV) и Генеративную Модель Наград…

  • Революционная платформа AI для интеграции рассуждений и поиска

    Введение в ReSearch: Прогрессивная AI-структура Обзор ReSearch ReSearch представляет собой продвинутую структуру, которая обучает большие языковые модели (LLM) комбинировать рассуждения с поиском с помощью обучения с подкреплением, устраняя необходимость в контролируемых данных для…

  • Использование Git и Git Bash: Руководство для бизнеса

    Бизнес-преобразование с помощью Git и искусственного интеллекта Введение Использование Git и Git Bash может значительно улучшить управление проектами. Эти инструменты позволяют командам отслеживать изменения кода и эффективно сотрудничать, что значительно повышает производительность бизнеса.…

  • Создание инструмента для анализа рентгеновских снимков с открытым исходным кодом

    Создание инструмента для оценки рентгеновских снимков с открытым исходным кодом Практические бизнес-решения Создание прототипа инструмента для оценки рентгеновских снимков может значительно улучшить процессы диагностики и повысить качество обслуживания клиентов в медицинских учреждениях. Использование…

  • Увеличение разнообразия креативного письма с помощью DPO и ORPO в ИИ моделях

    Улучшение креативного письма с помощью ИИ: Практические решения для бизнеса Понимание проблемы креативного письма в ИИ Креативное письмо требует разнообразия и воображения, что представляет собой уникальную задачу для систем искусственного интеллекта (ИИ). В…

  • Оценка юридических ответов на соответствие GDPR с помощью платформы Atla

    Оценка юридических ответов для соблюдения GDPR с помощью платформы Atla Обзор Данный гид описывает практический подход к оценке качества юридических ответов, сгенерированных языковыми моделями, с использованием платформы Atla и Python SDK. Наша цель…

  • VideoMind: Прорыв в понимании видео с помощью ИИ

    Видеоминд: Применение AI для понимания видео Видеоминд представляет собой значительное достижение в области искусственного интеллекта, особенно в понимании видео. Этот инновационный подход решает уникальные задачи анализа видеоконтента. Понимание задач видеоконтента Видеоматериалы более сложны…

  • Hostinger Horizons: Создавайте веб-приложения без кода с помощью ИИ

    Практические бизнес-решения с использованием Hostinger Horizons Hostinger Horizons предлагает уникальные возможности для бизнеса благодаря своей платформе без кода, которая упрощает создание веб-приложений. Вот как это может улучшить бизнес и реальную жизнь: Преимущества использования…

  • Hunyuan-T1: Революция в Искусственном Интеллекте для Бизнеса

    Практические бизнес-решения Преобразование рабочих процессов Искусственный интеллект может значительно улучшить бизнес-операции. Вот практические шаги, которые стоит рассмотреть: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. 2. Улучшите взаимодействие с…

  • FFN Fusion от NVIDIA: Революция в эффективности больших языковых моделей

    Введение в большие языковые модели Большие языковые модели (LLMs) становятся все более важными в различных секторах, обеспечивая работу приложений, таких как генерация естественного языка и разговорные агенты. Однако с увеличением размера и сложности…