ЧатРекс: Мультимодальная большая языковая модель с разделённым восприятием

 ChatRex: A Multimodal Large Language Model (MLLM) with a Decoupled Perception Design

Проблемы и решения в области мультимодальных крупных языковых моделей

Мультимодальные крупные языковые модели (MLLMs) продемонстрировали впечатляющие возможности в визуальном восприятии. Однако они сталкиваются с трудностями при выполнении задач точного восприятия, таких как обнаружение объектов, что критично для таких приложений, как автономное вождение и навигация роботов.

Основные вызовы

Современные модели не достигают высокой точности обнаружения. Например, система Qwen2-VL имеет низкий уровень полезного обнаружения — только 43,9% на наборе данных COCO. Это связано с конфликтами задач восприятия и понимания, а также с недостатком сбалансированных наборов данных.

Традиционные подходы

Традиционные методы интеграции восприятия в MLLMs часто сталкиваются с ошибками и неопределенностью в предсказаниях объектов. Использование слабо адаптированных архитектур приводит к неточностям в сложных изображениях.

Решение задачи

Исследователи из Международной академии цифровой экономики (IDEA) разработали ChatRex — продвинутую MLLM с декомпозированной архитектурой, обособляющей задачи восприятия и понимания. ChatRex использует стратегию обнаружения объектов, основанную на извлечении индексов ограничивающих рамок, что значительно повышает точность.

Ключевые характеристики ChatRex

  • Универсальная предложенческая сеть (UPN): генерирует надежные предложения ограничивающих рамок на нескольких уровнях подробности.
  • Двухкомпонентный визионный энкодер: объединяет высоко- и низкоразрешающие визуальные признаки для повышения точности.
  • Новый набор данных Rexverse-2M: содержит более двух миллионов аннотированных изображений, обеспечивая сбалансированное обучение.

Результаты

ChatRex демонстрирует лучшие показатели точности, полноты и средней средней точности (mAP) по сравнению с конкурентами на наборах данных COCO и LVIS. Он способен точно связывать объекты с описательными выражениями и отлично справляется с генерацией информативных заголовков для изображений.

Заключение

ChatRex — это первая мультимодальная модель ИИ, которая решает конфликт между задачами восприятия и понимания. Ее инновационный дизайн и мощный набор данных задают новый стандарт для MLLMs, позволяя точно обнаруживать объекты и обеспечивать насыщенное понимание контекста. Эти возможности открывают новые применения в динамичных и сложных средах.

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, изучите возможности ChatRex.

Практические шаги для внедрения ИИ:

  • Проанализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI).
  • Выберите подходящее ИИ-решение.
  • Начните с малого проекта и расширяйте автоматизацию на основе полученного опыта.

Если нужны советы по внедрению ИИ, свяжитесь с нами.

Изучите, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект