Ученые из Google DeepMind представляют YouTube-SL-25: многоязычный корпус с более чем 3 000 часами видеороликов со знаковым языком на 25+ языках

 Researchers from Google DeepMind Introduce YouTube-SL-25: A Multilingual Corpus with Over 3,000 Hours of Sign Language Videos Covering 25+ Languages

Исследование языка жестов: применение и практические решения

Исследование языка жестов направлено на разработку технологий, улучшающих понимание, перевод и интерпретацию языков жестов, используемых глухими и слабослышащими людьми по всему миру. Это включает создание обширных наборов данных, разработку сложных моделей машинного обучения и улучшение инструментов для перевода и идентификации в различных приложениях. Это исследование помогает устранить барьеры в общении и поддерживает включение и доступность для людей, которые ежедневно пользуются языком жестов.

Основная проблема

Одной из основных проблем в этой области является недостаток данных для многих языков жестов. В отличие от устных языков, языки жестов не имеют стандартизированной письменной формы, что затрудняет сбор и обработку данных. Это ограничивает развитие эффективных инструментов перевода и интерпретации, особенно для менее изученных языков жестов.

Практическое решение: YouTube-SL-25

Исследователи Google и Google DeepMind представили YouTube-SL-25 – крупный открытый многоязычный корпус видеороликов на языке жестов. Этот набор данных является самым крупным и разнообразным по своему роду, включая более 3 000 часов видео и более 3 000 уникальных исполнителей на 25 языках жестов. Предоставление хорошо выровненных субтитров значительно расширяет ресурсы для задач перевода и идентификации языка жестов.

Создание YouTube-SL-25 включало тщательный двухэтапный процесс. Автоматические классификаторы выделяли потенциальные видеоролики на языке жестов с YouTube, после чего исследователи проводили триаж, аудитируя и приоритизируя видеоролики на основе качества контента и выравнивания. Это позволило собрать 81 623 кандидатских видеоролика, затем отобрать 39 197 высококачественных видеороликов общим объемом 3 207 часов. Этот набор данных включает хорошо выровненные субтитры, охватывающие 2,16 миллиона заголовков с 104 миллионами символов, устанавливая новые стандарты для наборов данных языка жестов.

Практическое применение набора данных YouTube-SL-25 продемонстрировано через бенчмарки с использованием унифицированной мультиязычной многозадачной модели на основе T5. Исследователи расширили эту модель для поддержки нескольких исходных и целевых языков, улучшив ее возможности идентификации и перевода языка жестов. Результаты показали существенные преимущества от мультиязычной передачи, с заметными улучшениями в языках жестов с большим и малым объемом ресурсов.

Набор данных YouTube-SL-25 значительно влияет на разработку технологий языка жестов. Этот набор данных устраняет критические пробелы в доступности мультиязычных данных языков жестов, позволяя лучше предварительное обучение моделей перевода идентификации языка жестов.

В заключение, YouTube-SL-25 является ключевым прорывом в исследовании языка жестов, устраняя проблему дефицита данных. Благодаря обширной коллекции видеороликов на языке жестов, этот набор данных способствует разработке более эффективных инструментов перевода и интерпретации, обеспечивая более качественные модели машинного обучения и поддерживая большую доступность для глухих и слабослышащих людей по всему миру.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект