Система CLASI: высококачественный и естественный одновременный перевод речи

 Bytedance Researchers Present Cross Language Agent – Simultaneous Interpretation (CLASI): A High-Quality And Human-Like Simultaneous Speech Translation (SiST) System

“`html

Преодоление вызовов одновременного перевода речи с помощью CLASI

Одним из самых сложных вызовов в области перевода является одновременный перевод речи (SiST). Это способность переводить устную речь на другой язык в реальном времени, что открывает путь к мгновенному общению на разных языках. Машинно-помогаемый автономный перевод в области обработки естественного языка (NLP) вызывает большой интерес. Однако модуль распознавания речи (ASR) является распространенным источником задержек и ошибок в таких системах.

Практические решения и ценность

Исследователи из ByteDance представили CLASI, уникального кросс-языкового агента, который достигает одновременного перевода через повторное выполнение различных операций. CLASI преодолевает препятствия, эмулируя подход человеческих переводчиков к сегментации полных предложений на более мелкие части на основе синтаксических маркеров и контекстного значения. Кроме того, CLASI улучшен двумя дополнительными модулями: памятью, которая записывает контекст речи, и внешней базой знаний с терминологией и соответствующими переводами.

Для улучшения перевода с использованием контекстного обучения, информация и контекст памяти добавляются к запросу агента LLM. Трехэтапная методология обучения – предварительное обучение, непрерывное обучение и настройка – используется для решения проблемы нехватки данных для задачи SiST. Кроме того, предлагается новая метрика оценки – Valid Information Proportion (VIP)2, которая выявляет пропорцию информации, которая может быть передана точно.

Результаты показывают, что предложенный метод значительно превосходит другие доступные алгоритмы в человеческих оценках, проведенных на сложных реальных длинных речевых наборах данных. Это обещающий результат, указывающий на светлое будущее для SiST.

CLASI превосходит предыдущие системы, но требует дополнительных исследований для улучшения многомодальных моделей вознаграждения и подходов RL для SiST. Перспективные области исследований включают многомодальную интеграцию, такую как конечная видео-видео или речь-речь продукция.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект