Новая методика оценки ответов VLM на открытые запросы от Salesforce AI Research.

 Salesforce AI Research Propose Programmatic VLM Evaluation (PROVE): A New Benchmarking Paradigm for Evaluating VLM Responses to Open-Ended Queries

Оценка Моделей Языка и Визуала (VLM)

Модели VLM становятся все более популярными для генерации ответов на запросы о визуальном контенте. Однако у них есть серьезная проблема — генерация правдоподобных, но неверных ответов, что называется «галлюцинациями». Это снижает доверие к системам, особенно в критически важных ситуациях.

Проблемы Оценки Ответов VLM

Оценка полезности и достоверности ответов, сгенерированных VLM, является сложной задачей. Это связано с тем, что необходимо не только понимать визуальный контент, но и проверять каждое утверждение. Традиционные методы оценки не справляются с этой задачей, так как ограничены простыми вопросами или не дают полного контекста для открытых ответов.

Решение от Salesforce AI Research

Исследователи из Salesforce AI Research предложили новую парадигму оценки VLM — Programmatic VLM Evaluation (PROVE). Это позволяет оценивать ответы VLM на открытые визуальные запросы. В PROVE используется высококачественное представление сцены и большая языковая модель (LLM) для генерации разнообразных пар вопросов и ответов, а также программ для проверки каждой пары.

Преимущества PROVE

  • Создание набора данных из 10.5 тысяч сложных пар вопросов и ответов, основанных на визуальном контенте.
  • Оценка включает измерение полезности и достоверности ответов с использованием единой схемы на основе сравнений сцен.
  • Использование детализированных графов сцены и исполняемых программ для проверки правильности ответов VLM.

Результаты Оценки

Оценка показала, что современные VLM сталкиваются с трудностями в достижении хорошего баланса между полезностью и достоверностью. Некоторые модели продемонстрировали высокие показатели полезности, но не всегда достоверности. Исследование также показало, что увеличение размера модели улучшает полезность, но не всегда достоверность. Модели LLaVA-1.5 показали лучшие результаты по достоверности, что указывает на то, что более компактные модели могут быть точнее.

Значение Результатов

PROVE представляет собой важный шаг вперед в оценке полезности и достоверности ответов VLM. Это исследование подчеркивает необходимость создания VLM, которые генерируют как информативные, так и точные ответы, особенно с учетом растущего применения в реальном мире.

Как Использовать ИИ для Развития Бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта, рассмотрите следующие шаги:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите, где можно применить автоматизацию.
  • Установите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Подберите подходящее решение и внедряйте его постепенно.
  • Расширяйте автоматизацию на основе полученных данных и опыта.

Если вам нужны советы по внедрению ИИ, свяжитесь с нами.

Попробуйте ИИ-ассистента в продажах, который помогает отвечать на вопросы клиентов и снижает нагрузку на команду.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект