Исследование языка жестов: применение и практические решения
Исследование языка жестов направлено на разработку технологий, улучшающих понимание, перевод и интерпретацию языков жестов, используемых глухими и слабослышащими людьми по всему миру. Это включает создание обширных наборов данных, разработку сложных моделей машинного обучения и улучшение инструментов для перевода и идентификации в различных приложениях. Это исследование помогает устранить барьеры в общении и поддерживает включение и доступность для людей, которые ежедневно пользуются языком жестов.
Основная проблема
Одной из основных проблем в этой области является недостаток данных для многих языков жестов. В отличие от устных языков, языки жестов не имеют стандартизированной письменной формы, что затрудняет сбор и обработку данных. Это ограничивает развитие эффективных инструментов перевода и интерпретации, особенно для менее изученных языков жестов.
Практическое решение: YouTube-SL-25
Исследователи Google и Google DeepMind представили YouTube-SL-25 – крупный открытый многоязычный корпус видеороликов на языке жестов. Этот набор данных является самым крупным и разнообразным по своему роду, включая более 3 000 часов видео и более 3 000 уникальных исполнителей на 25 языках жестов. Предоставление хорошо выровненных субтитров значительно расширяет ресурсы для задач перевода и идентификации языка жестов.
Создание YouTube-SL-25 включало тщательный двухэтапный процесс. Автоматические классификаторы выделяли потенциальные видеоролики на языке жестов с YouTube, после чего исследователи проводили триаж, аудитируя и приоритизируя видеоролики на основе качества контента и выравнивания. Это позволило собрать 81 623 кандидатских видеоролика, затем отобрать 39 197 высококачественных видеороликов общим объемом 3 207 часов. Этот набор данных включает хорошо выровненные субтитры, охватывающие 2,16 миллиона заголовков с 104 миллионами символов, устанавливая новые стандарты для наборов данных языка жестов.
Практическое применение набора данных YouTube-SL-25 продемонстрировано через бенчмарки с использованием унифицированной мультиязычной многозадачной модели на основе T5. Исследователи расширили эту модель для поддержки нескольких исходных и целевых языков, улучшив ее возможности идентификации и перевода языка жестов. Результаты показали существенные преимущества от мультиязычной передачи, с заметными улучшениями в языках жестов с большим и малым объемом ресурсов.
Набор данных YouTube-SL-25 значительно влияет на разработку технологий языка жестов. Этот набор данных устраняет критические пробелы в доступности мультиязычных данных языков жестов, позволяя лучше предварительное обучение моделей перевода идентификации языка жестов.
В заключение, YouTube-SL-25 является ключевым прорывом в исследовании языка жестов, устраняя проблему дефицита данных. Благодаря обширной коллекции видеороликов на языке жестов, этот набор данных способствует разработке более эффективных инструментов перевода и интерпретации, обеспечивая более качественные модели машинного обучения и поддерживая большую доступность для глухих и слабослышащих людей по всему миру.