Преимущества Мультимодельных Моделей в Искусственном Интеллекте
Практические Решения и Ценность
Мультимодельные модели представляют собой значительный прогресс в области искусственного интеллекта, позволяя системам обрабатывать и понимать данные из различных источников, таких как текст и изображения. Эти модели необходимы для приложений, таких как подписи изображений, ответы на визуальные вопросы и помощь в робототехнике, где понимание визуальных и языковых входов критично.
Сегодня многие высокоэффективные мультимодельные модели строятся на основе закрытых данных, что ограничивает доступ к ним для широкого научного сообщества и тормозит инновации в открытом исследовании в области ИИ.
Проблема развития открытых мультимодельных моделей заключается в зависимости от данных, созданных закрытыми системами. Многие методы обучения мультимодельных моделей тесно связаны с дистилляцией из закрытых систем. Однако исследователи из Allen Institute for AI и Университета Вашингтона представили семейство моделей Molmo, которые представляют собой прорыв в области, предоставляя полностью открытое решение без весов и данных.
Модели Molmo обучаются с использованием простого, но мощного конвейера, который объединяет предварительно обученный визионный кодер с языковой моделью. Основой для обучения моделей служит набор данных PixMo, который позволяет моделям генерировать плотные, подробные описания изображений.
Модель Molmo-72B, самая передовая в семействе, превзошла многие ведущие закрытые системы на 11 академических бенчмарках. Она также заняла второе место в человеческой оценке с 15 000 пар изображений и текста, уступив незначительно GPT-4o. Модель MolmoE-1B смогла приблизиться к производительности GPT-4V, что делает ее высокоэффективной и конкурентоспособной моделью.
Релиз моделей Molmo и связанных с ними наборов данных PixMo открывает путь для будущих инноваций и сотрудничества в развитии визуально-языковых моделей, обеспечивая научному сообществу необходимые инструменты для продвижения границ ИИ.