MMMU-Pro: Новый этап в оценке мультимодальных ИИ-систем
Мультимодальные большие языковые модели (MLLMs) находят все большее применение в медицинском анализе изображений, диагностике инженерных систем и образовании, где понимание диаграмм, графиков и других визуальных данных является ключевым. Однако, сложность таких задач требует от MLLMs плавного переключения между различными типами информации при выполнении сложного рассуждения.
Оценка глубины понимания
Основной вызов, с которым сталкиваются исследователи в этой области, заключается в обеспечении того, чтобы ИИ-модели действительно понимали мультимодальные задачи, а не полагались на простые статистические закономерности для вывода ответов. Для решения этой проблемы была предложена новая система оценки под названием MMMU-Pro, разработанная совместно с ведущими компаниями, такими как OpenAI, Google и Anthropic.
Методология MMMU-Pro
MMMU-Pro включает в себя несколько ключевых шагов, включая фильтрацию вопросов, которые могут быть решены только текстовыми моделями, увеличение числа вариантов ответов и введение ситуаций, где модели предоставляются только визуальные данные без текстовой информации. Это позволяет более точно оценить способность моделей к пониманию мультимодальных контекстов.
Результаты и перспективы
MMMU-Pro выявил ограничения многих современных моделей ИИ, подчеркивая необходимость развития более эффективных систем для работы с мультимодальными задачами. Этот новый этап в оценке мультимодальных ИИ-систем открывает новые возможности для будущих исследований и развития более совершенных моделей, способных интегрировать сложные визуальные и текстовые данные.