Будущее языковых моделей: маленькие модели – это реальность? Allen Institute for Artificial Intelligence (Ai2) представляет Molmo: семейство открытых мультимодальных языковых моделей.

 Are Small Language Models Really the Future of Language Models? Allen Institute for Artificial Intelligence (Ai2) Releases Molmo: A Family of Open-Source Multimodal Language Models

Преимущества Мультимодельных Моделей в Искусственном Интеллекте

Практические Решения и Ценность

Мультимодельные модели представляют собой значительный прогресс в области искусственного интеллекта, позволяя системам обрабатывать и понимать данные из различных источников, таких как текст и изображения. Эти модели необходимы для приложений, таких как подписи изображений, ответы на визуальные вопросы и помощь в робототехнике, где понимание визуальных и языковых входов критично.

Сегодня многие высокоэффективные мультимодельные модели строятся на основе закрытых данных, что ограничивает доступ к ним для широкого научного сообщества и тормозит инновации в открытом исследовании в области ИИ.

Проблема развития открытых мультимодельных моделей заключается в зависимости от данных, созданных закрытыми системами. Многие методы обучения мультимодельных моделей тесно связаны с дистилляцией из закрытых систем. Однако исследователи из Allen Institute for AI и Университета Вашингтона представили семейство моделей Molmo, которые представляют собой прорыв в области, предоставляя полностью открытое решение без весов и данных.

Модели Molmo обучаются с использованием простого, но мощного конвейера, который объединяет предварительно обученный визионный кодер с языковой моделью. Основой для обучения моделей служит набор данных PixMo, который позволяет моделям генерировать плотные, подробные описания изображений.

Модель Molmo-72B, самая передовая в семействе, превзошла многие ведущие закрытые системы на 11 академических бенчмарках. Она также заняла второе место в человеческой оценке с 15 000 пар изображений и текста, уступив незначительно GPT-4o. Модель MolmoE-1B смогла приблизиться к производительности GPT-4V, что делает ее высокоэффективной и конкурентоспособной моделью.

Релиз моделей Molmo и связанных с ними наборов данных PixMo открывает путь для будущих инноваций и сотрудничества в развитии визуально-языковых моделей, обеспечивая научному сообществу необходимые инструменты для продвижения границ ИИ.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект