Оценка Моделей Языка и Визуала (VLM)
Модели VLM становятся все более популярными для генерации ответов на запросы о визуальном контенте. Однако у них есть серьезная проблема — генерация правдоподобных, но неверных ответов, что называется «галлюцинациями». Это снижает доверие к системам, особенно в критически важных ситуациях.
Проблемы Оценки Ответов VLM
Оценка полезности и достоверности ответов, сгенерированных VLM, является сложной задачей. Это связано с тем, что необходимо не только понимать визуальный контент, но и проверять каждое утверждение. Традиционные методы оценки не справляются с этой задачей, так как ограничены простыми вопросами или не дают полного контекста для открытых ответов.
Решение от Salesforce AI Research
Исследователи из Salesforce AI Research предложили новую парадигму оценки VLM — Programmatic VLM Evaluation (PROVE). Это позволяет оценивать ответы VLM на открытые визуальные запросы. В PROVE используется высококачественное представление сцены и большая языковая модель (LLM) для генерации разнообразных пар вопросов и ответов, а также программ для проверки каждой пары.
Преимущества PROVE
- Создание набора данных из 10.5 тысяч сложных пар вопросов и ответов, основанных на визуальном контенте.
- Оценка включает измерение полезности и достоверности ответов с использованием единой схемы на основе сравнений сцен.
- Использование детализированных графов сцены и исполняемых программ для проверки правильности ответов VLM.
Результаты Оценки
Оценка показала, что современные VLM сталкиваются с трудностями в достижении хорошего баланса между полезностью и достоверностью. Некоторые модели продемонстрировали высокие показатели полезности, но не всегда достоверности. Исследование также показало, что увеличение размера модели улучшает полезность, но не всегда достоверность. Модели LLaVA-1.5 показали лучшие результаты по достоверности, что указывает на то, что более компактные модели могут быть точнее.
Значение Результатов
PROVE представляет собой важный шаг вперед в оценке полезности и достоверности ответов VLM. Это исследование подчеркивает необходимость создания VLM, которые генерируют как информативные, так и точные ответы, особенно с учетом растущего применения в реальном мире.
Как Использовать ИИ для Развития Бизнеса
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта, рассмотрите следующие шаги:
- Анализируйте, как ИИ может изменить вашу работу.
- Определите, где можно применить автоматизацию.
- Установите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
- Подберите подходящее решение и внедряйте его постепенно.
- Расширяйте автоматизацию на основе полученных данных и опыта.
Если вам нужны советы по внедрению ИИ, свяжитесь с нами.
Попробуйте ИИ-ассистента в продажах, который помогает отвечать на вопросы клиентов и снижает нагрузку на команду.
Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.