Модель LLaVA-Critic для оценки производительности моделей в различных мультимодальных задачах.

 LLaVA-Critic: An Open-Source Large Multimodal Model Designed to Assess Model Performance Across Diverse Multimodal Tasks



LLaVA-Critic: Первая большая мультимодальная модель с открытым исходным кодом, разработанная для оценки производительности моделей в различных мультимодальных задачах

Способность к обучению оценивать все более играет ключевую роль в развитии современных больших мультимодальных моделей (LMMs). Переход к пост-обучению с использованием синтетических данных, улучшенных с помощью ИИ, подчеркивает растущее значение обучения оценивать в современных LMMs. Надежная оценка ИИ важна для человеческого труда при оценке сложных задач, генерации эффективных сигналов вознаграждения в обучении с подкреплением и руководства поисковым запросом во время вывода. Несмотря на прогресс в сценариях одиночного изображения, многократного изображения и видео, разработка открытых LMMs, способных оценивать производительность других мультимодальных моделей, представляет собой пробел в отрасли.

Практические решения и ценность:

Существующие попытки решить проблему оценки ИИ в основном сосредоточены на использовании собственных LMMs, таких как GPT-4V, в качестве общих оценщиков для задач зрения и языка. Эти модели использовались в оценочных бенчмарках для сложных сценариев, таких как визуальный чат и детальное описание. Более того, появились альтернативы с открытым исходным кодом, такие как Prometheus-Vision, как оценщики для конкретных критериев оценки, созданных пользователями. В предпочтительном обучении для LMMs применяются методики, такие как обучение с подкреплением по обратной связи от человека (RLHF) и прямая оптимизация предпочтений (DPO) для выравнивания моделей с человеческими намерениями. Недавние исследования расширили эти концепции на мультимодальное пространство, изучая различные стратегии для улучшения способностей визуального чата и сокращения галлюцинаций в мультимодальных моделях зрения и языка.

Исследователи из ByteDance и Университета Мэриленда, Колледж-Парк, предложили LLaVA-Critic, первую LMM, специально разработанную для оценочных задач. Этот подход сосредоточен на подготовке данных для следования инструкциям, разработанных специально для оценочных целей. Он решает два основных сценария: служит в качестве LMM-как-судья и облегчает обучение предпочтениям. Он стремится предоставить надежные оценочные баллы, сравнимые с собственными моделями, такими как GPT-4V, предлагая бесплатную альтернативу для различных оценочных бенчмарков в первом сценарии. Он представляет масштабируемое решение для генерации эффективных сигналов вознаграждения, сокращая зависимость от дорогостоящего сбора обратной связи от людей во втором сценарии. LLaVA-Critic показывает высокую корреляцию с коммерческими моделями GPT в оценочных задачах и превосходную производительность в обучении предпочтениям.

LLaVA-Critic разработан путем донастройки предварительно обученной LMM, способной следовать разнообразным инструкциям. Этот подход обеспечивает возможность модели выполнять различные задачи высокого качества в области зрения. Процесс обучения включает использование оценочного запроса, который объединяет мультимодальный ввод инструкций, ответ(ов) модели и опциональный справочный ответ. LLaVA-Critic обучается предсказывать количественные баллы по критериям и обеспечивать подробные обоснования своих решений. Модель использует стандартную потерю перекрестной энтропии для оценок и обоснований. Исследователи начинают с предварительно обученной контрольной точки LLaVA-OneVision(OV) 7B/72B и донастраивают ее на набор данных LLaVA-Critic-113k для одной эпохи.

Результаты показывают значительное улучшение как в способностях к количественной оценке, так и в ранжировании по парам у LLaVA-Critic по сравнению с базовыми моделями. LLaVA-Critic-72B достигает наивысшего среднего коэффициента корреляции Пирсона (0,754) и Тау Кендалла (0,933) в количественной оценке, превосходя базовую модель LLaVA-OV-72B. В ранжировании по парам LLaVA-Critic-72B превосходит GPT-4o и GPT-4V в сравнениях без ничьих, достигая точности 73,6%. LLaVA-Critic-7B превосходит большинство базовых моделей по сравнению с коммерческими моделями и другими LMMs с открытым исходным кодом в сценарии LMM-как-судья. Эти результаты подчеркивают эффективность LLaVA-Critic в качестве открытой альтернативы для оценки мультимодальных моделей.

В заключение, исследователи предложили LLaVA-Critic, первую LMM, специально разработанную для оценочных задач. Исследователи использовали высококачественный разнообразный набор данных для следования инструкциям для разработки этой модели, которая выделяется в двух критических областях. Во-первых, как общий оценщик, LLaVA-Critic показывает замечательное согласование с предпочтениями человека и GPT-4o в различных оценочных задачах, предлагая жизнеспособную открытую альтернативу коммерческим моделям. Во-вторых, в сценариях обучения предпочтениям LLaVA-Critic функционирует как надежная модель вознаграждения, превосходя подходы, основанные на обратной связи от людей, в улучшении способностей визуального чата LMMs. Это исследование является важным шагом к созданию способностей самокритики в открытых LMMs, обеспечивая будущие прогрессивные обратные связи в области масштабируемого и сверхчеловеческого выравнивания ИИ.


Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Itinai.com it company office background blured photography by 0b545732 d29f 4839 a448 751a77ba1563 0

    Интерактивный анализ видео с помощью AI и Lyzr Chatbot Framework

    Преобразование видео-контента в действенные инсайты с помощью ИИ В современном цифровом мире компаниям необходимо эффективно извлекать ценную информацию из мультимедийных ресурсов. Использование искусственного интеллекта может значительно улучшить этот процесс, особенно при анализе транскриптов…

  • Itinai.com it company office background blured photography by 431ba571 009a 4ead 8847 7d3b7a613a24 0

    MMaDA: Унифицированная Модель Мультимодального Диффузии для Бизнеса

    Унифицированная многомодальная диффузионная модель для бизнес-приложений Преимущества MMaDA для бизнеса MMaDA (Многомодальная диффузионная модель для текстового анализа, визуального понимания и генерации изображений) значительно упрощает интеграцию различных типов данных, что приводит к более эффективным…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 3

    Мягкое мышление: новое слово в рассуждениях ИИ

    Понимание изменений в рассуждении ИИ Большие языковые модели (LLM) традиционно полагаются на дискретные языковые токены для обработки информации. Этот метод, хотя и эффективен для простых задач, ограничивает способность модели рассуждать в сложных или…

  • Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 1

    API Mistral Agents: Упрощение создания продвинутых ИИ-агентов для разработчиков

    Введение в API агентов Mistral API агентов Mistral представляет собой новый инструмент для создания AI-агентов, которые могут выполнять различные задачи, такие как запуск кода на Python, генерация изображений и использование расширенного поиска. Это…

  • Itinai.com it company office background blured photography by 431ba571 009a 4ead 8847 7d3b7a613a24 0

    Улучшение пространственного понимания в ИИ: Multi-SpatialMLLM

    Практические бизнес-решения на основе Multi-SpatialMLLM Как это улучшает бизнес и реальную жизнь Технология Multi-SpatialMLLM значительно улучшает понимание пространственных отношений, что полезно в таких областях, как робототехника и автономные транспортные средства. Это приводит к…

  • Itinai.com it company office background blured photography by a4b45723 df9d 4684 b150 bb2c5790acc8 1

    QwenLong-L1: Новый подход к долгосрочному рассуждению в ИИ

    Введение QwenLong-L1: Новый Подход к Долгосрочному Рассуждению в ИИ Современные достижения в области больших моделей рассуждений (LRMs) продемонстрировали выдающиеся успехи в задачах с коротким контекстом. Однако эти модели сталкиваются с трудностями в сценариях…

  • Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

    Panda: Инновационная Модель Прогнозирования Нелинейной Динамики

    Практические бизнес-решения на основе модели Panda Модель Panda, разработанная в Университете Техаса в Остине, предлагает новые подходы к прогнозированию хаотических систем. Внедрение этой модели может значительно улучшить бизнес-процессы и повысить точность прогнозов. Вот…

  • Itinai.com it company office background blured photography by 976ad3f5 ce78 4bd8 aa05 19f4de5f5730 2

    Дифференцируемые MCMC-слои: Революция в нейронных сетях для комбинаторной оптимизации

    Понимание задачи Нейронные сети отлично обрабатывают сложные данные, но испытывают трудности с задачами дискретного принятия решений, такими как маршрутизация транспортных средств или планирование. Эти задачи часто включают строгие ограничения и требуют больших вычислительных…

  • Itinai.com it company office background blured photography by 724d9f47 b65a 445e b4b5 b5939a7eba28 3

    Модели динамического вознаграждения: улучшение суждений и согласованности LLM

    Практические бизнес-решения на основе улучшения рассуждений в больших языковых моделях Введение Недавние достижения в области больших языковых моделей (LLMs) открывают новые возможности для бизнес-трансформации. Использование Моделей Награждения Рассуждений (RRMs) может значительно улучшить процессы…

  • Itinai.com it company office background blured photography by 93e48de1 e0a4 4327 bf1a 5249ee257f75 2

    Создание синтетических данных с помощью Synthetic Data Vault: пошаговое руководство

    Практические решения для бизнеса с использованием синтетических данных Синтетические данные могут значительно улучшить бизнес-процессы, позволяя компаниям обучать модели машинного обучения без риска нарушения конфиденциальности. Это решение помогает сократить затраты на обработку данных и…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 0

    Запуск NVIDIA Llama Nemotron Nano 4B: Эффективная модель ИИ для Edge Computing

    Введение NVIDIA представила Llama Nemotron Nano 4B — инновационную модель для AI на краю, которая может значительно улучшить бизнес-процессы. Давайте рассмотрим, как это может помочь вашему бизнесу и реальной жизни. Практические бизнес-решения Использование…

  • Itinai.com it company office background blured photography by 93e48de1 e0a4 4327 bf1a 5249ee257f75 3

    NVIDIA AceReason-Nemotron: Прорыв в математическом и кодовом рассуждении с помощью обучения с подкреплением

    «`html Введение Использование искусственного интеллекта может существенно изменить бизнес-процессы, улучшить взаимодействие с клиентами и повысить общую эффективность. Практические бизнес-решения Автоматизация процессов: Найдите области, где искусственный интеллект может автоматизировать рутинные задачи, освобождая сотрудников для…

  • Itinai.com it company office background blured photography by 93e48de1 e0a4 4327 bf1a 5249ee257f75 2

    NLWeb: Упрощение интеграции ИИ-интерфейсов на веб-сайтах

    Практические бизнес-решения на основе NLWeb NLWeb от Microsoft предоставляет возможность интеграции искусственного интеллекта в веб-сайты, что может значительно улучшить взаимодействие с клиентами и оптимизировать бизнес-процессы. Как это улучшает бизнес и реальную жизнь Использование…

  • Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 2

    GRIT: Новый подход к обучению мультимодальных языковых моделей

    Понимание проблемы Разработка многомодальных больших языковых моделей (MLLM) направлена на объединение понимания визуального контента и обработки языка. Однако многие из этих моделей сталкиваются с трудностями при эффективном рассуждении о изображениях. Это может привести…

  • Itinai.com it company office background blured photography by e4139fc1 862c 4177 9de9 70fb39c5af9e 2

    Создание настраиваемого многофункционального AI-агента с LangGraph и Claude

    Создание пользовательского многофункционального AI-агента: практическое руководство 1. Настройка окружения Автоматизация установки необходимых Python-пакетов упрощает процесс настройки и создает удобную среду для работы. Рекомендации по реализации: Определите необходимые пакеты для установки. Используйте скрипт для…

  • Itinai.com it company office background blured photography by 783785eb 8fa3 46e6 bc84 19f52afaa824 3

    Оптимизация ассемблерного кода с помощью ИИ: превосходство обучения с подкреплением над традиционными компиляторами

    Оптимизация кода сборки с помощью больших языковых моделей (LLMs) Введение С увеличением спроса на эффективные методы программирования оптимизация кода сборки становится ключевой задачей. Традиционные компиляторы долгое время были основным решением, однако недавние инновации…

  • Itinai.com it company office background blured photography by 724d9f47 b65a 445e b4b5 b5939a7eba28 3

    Современные многоагентные рабочие процессы с Microsoft AutoGen

    Введение Использование Microsoft AutoGen для создания многоагентных рабочих процессов может значительно улучшить бизнес-процессы. Это позволяет интегрировать специализированных помощников для повышения эффективности и качества работы. Преимущества внедрения Автоматизация взаимодействия между агентами улучшает скорость и…

  • Itinai.com it company office background blured photography by 724d9f47 b65a 445e b4b5 b5939a7eba28 1

    Групповое Мышление: Новая Эффективность Сотрудничества AI

    Повышение Эффективности Бизнеса с Помощью Group Think Введение в Group Think В современном мире искусственного интеллекта сотрудничество языковых моделей (LLMs) открывает новые горизонты. Концепция Group Think позволяет этим моделям эффективно работать вместе, увеличивая…