Проблемы с происхождением, лицензированием и прозрачностью многомодальных датасетов по данным команды Data Provenance Initiative

 This AI Paper by The Data Provenance Initiative Team Highlights Challenges in Multimodal Dataset Provenance, Licensing, Representation, and Transparency for Responsible Development

Проблемы и решения в области искусственного интеллекта

Значение качественных данных для ИИ

Развитие искусственного интеллекта (ИИ) зависит от наличия и качества обучающих данных. Модели, работающие с текстом, речью и видео, требуют разнообразных наборов данных. Однако недостаток прозрачности в происхождении данных создает серьезные проблемы.

Этические и юридические вызовы

Использование данных с географическими и языковыми искажениями, а также с неясными лицензиями приводит к этическим и юридическим сложностям. Понимание источников данных необходимо для создания ответственных технологий ИИ.

Проблемы с представлением данных

Современные наборы данных часто зависят от нескольких веб-ресурсов, таких как YouTube и Wikipedia. Это приводит к недостаточному представлению языков и регионов. Более 80% популярных наборов данных имеют неясные лицензии.

Необходимость системного подхода

Текущие попытки решить эти проблемы сосредоточены на узких аспектах, таких как удаление вредного контента. Необходим комплексный подход к оценке наборов данных, учитывающий все модальности, включая речь и видео.

Аудит наборов данных

Исследователи провели крупнейший аудит мультимодальных наборов данных, охватывающий почти 4,000 публичных наборов. Это исследование выявило, что большинство данных поступает с веб-ресурсов и социальных медиа, а также растет доля синтетических источников.

Ключевые выводы

  • Более 70% наборов данных по речи и видео происходят с платформ, таких как YouTube.
  • Только 33% наборов данных имеют явные некоммерческие лицензии.
  • Североамериканские и европейские организации доминируют в создании наборов данных.
  • Синтетические наборы данных, такие как GPT-4, становятся все более популярными.

Рекомендации для компаний

Чтобы ваша компания могла развиваться с помощью ИИ, выполните следующие шаги:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Выберите подходящее решение из множества доступных вариантов.
  • Внедряйте ИИ постепенно, начиная с небольших проектов.

Получите помощь по внедрению ИИ

Если вам нужны советы по внедрению ИИ, свяжитесь с нами.

Попробуйте ИИ ассистент в продажах, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Заключение

Аудит подчеркивает важность прозрачности и равного представительства в данных для создания ответственных систем ИИ. Это призыв к действию для всех участников, чтобы решить структурные проблемы в экосистеме данных ИИ.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект