Преимущества самообучения (SSL) в области обработки речи
Самообучение (SSL) значительно расширило возможности технологий речи, минимизируя необходимость в размеченных данных. Однако текущие модели поддерживают только 100-150 из более чем 7 000 языков мира. Это ограничение в значительной степени обусловлено недостатком транскрибированной речи, так как только около половины этих языков имеют формальные письменные системы, и еще меньше из них имеют ресурсы для создания обширных размеченных данных, необходимых для обучения. Проекты, такие как MMS, расширили охват на более чем 1 000 языков, но нуждаются в помощи в обработке шума данных и отсутствии разнообразных условий записи.
Решение: XEUS – универсальный кросс-языковой энкодер для речи
Исследователи из Университета Карнеги-Меллон, Шанхайского Хяотунского университета и Технологического института Тойоты в Чикаго разработали XEUS, кросс-языковой энкодер для универсальной речи. XEUS обучен на более чем 1 миллионе часов данных из 4 057 языков, значительно увеличивая охват языков для моделей SSL. Это включает новый корпус из 7 413 часов из 4 057 языков, который будет общедоступен. XEUS включает новую цель дереверберации для улучшенной устойчивости. Он превосходит современные модели в различных бенчмарках, включая ML-SUPERB. Для поддержки дальнейших исследований исследователи выпустят XEUS, его код, конфигурации обучения, контрольные точки и журналы обучения.
Преимущества и практическое применение
XEUS представляет собой надежный SSL-энкодер речи, обученный на более чем 1 миллионе часов данных из 4 057 языков, демонстрируя превосходную производительность в широком спектре мультиязычных и низкоресурсных задач. XEUS улучшает мультиязычные исследования, предоставляя открытый доступ к своим данным и модели. Однако важно учитывать этические аспекты, особенно при работе с речевыми данными от коренных сообществ, и предотвращать их злоупотребление, такое как создание аудио-дипфейков. Интеграция XEUS с доступными платформами направлена на демократизацию разработки речевых моделей.