Проблемы и решения в области мультимодальных крупных языковых моделей
Мультимодальные крупные языковые модели (MLLMs) продемонстрировали впечатляющие возможности в визуальном восприятии. Однако они сталкиваются с трудностями при выполнении задач точного восприятия, таких как обнаружение объектов, что критично для таких приложений, как автономное вождение и навигация роботов.
Основные вызовы
Современные модели не достигают высокой точности обнаружения. Например, система Qwen2-VL имеет низкий уровень полезного обнаружения — только 43,9% на наборе данных COCO. Это связано с конфликтами задач восприятия и понимания, а также с недостатком сбалансированных наборов данных.
Традиционные подходы
Традиционные методы интеграции восприятия в MLLMs часто сталкиваются с ошибками и неопределенностью в предсказаниях объектов. Использование слабо адаптированных архитектур приводит к неточностям в сложных изображениях.
Решение задачи
Исследователи из Международной академии цифровой экономики (IDEA) разработали ChatRex — продвинутую MLLM с декомпозированной архитектурой, обособляющей задачи восприятия и понимания. ChatRex использует стратегию обнаружения объектов, основанную на извлечении индексов ограничивающих рамок, что значительно повышает точность.
Ключевые характеристики ChatRex
- Универсальная предложенческая сеть (UPN): генерирует надежные предложения ограничивающих рамок на нескольких уровнях подробности.
- Двухкомпонентный визионный энкодер: объединяет высоко- и низкоразрешающие визуальные признаки для повышения точности.
- Новый набор данных Rexverse-2M: содержит более двух миллионов аннотированных изображений, обеспечивая сбалансированное обучение.
Результаты
ChatRex демонстрирует лучшие показатели точности, полноты и средней средней точности (mAP) по сравнению с конкурентами на наборах данных COCO и LVIS. Он способен точно связывать объекты с описательными выражениями и отлично справляется с генерацией информативных заголовков для изображений.
Заключение
ChatRex — это первая мультимодальная модель ИИ, которая решает конфликт между задачами восприятия и понимания. Ее инновационный дизайн и мощный набор данных задают новый стандарт для MLLMs, позволяя точно обнаруживать объекты и обеспечивать насыщенное понимание контекста. Эти возможности открывают новые применения в динамичных и сложных средах.
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, изучите возможности ChatRex.
Практические шаги для внедрения ИИ:
- Проанализируйте, как ИИ может изменить вашу работу.
- Определите ключевые показатели эффективности (KPI).
- Выберите подходящее ИИ-решение.
- Начните с малого проекта и расширяйте автоматизацию на основе полученного опыта.
Если нужны советы по внедрению ИИ, свяжитесь с нами.
Изучите, как ИИ может изменить ваши процессы с решениями от Flycode.ru.