Мультиагентный бенчмарк MuMA-ToM для продвижения теории разума в искусственном интеллекте
Для понимания социальных взаимодействий в сложных реальных ситуациях требуется глубокое мыслительное рассуждение для вывода основных ментальных состояний, определяющих эти взаимодействия, известных как Теория Разума (ToM). Социальные взаимодействия часто многомодальны, включая действия, разговоры и прошлые поведенческие реакции. Для того чтобы искусственный интеллект эффективно взаимодействовал в человеческой среде, он должен понимать эти ментальные состояния и их взаимосвязи.
Исследователи из Университета Джонса Хопкинса и Университета Вирджинии представили MuMA-ToM, первый бенчмарк для оценки мульти-модального, мульти-агентного мыслительного процесса во воплощенных взаимодействиях. MuMA-ToM представляет видео и текст, описывающие сценарии из реальной жизни, и задает вопросы о целях агентов и их убеждениях относительно целей других. Они проверили MuMA-ToM через человеческие эксперименты и представили LIMP (Language model-based Inverse Multi-agent Planning), новую модель ToM. LIMP превзошла существующие модели, включая GPT-4o и BIP-ALM, интегрируя двухуровневое рассуждение и устраняя необходимость в символьных представлениях.
Оценка моделей понимания мульти-агентных социальных взаимодействий
Бенчмарк MuMA-ToM оценивает модели понимания мульти-агентных социальных взаимодействий с использованием видео и текста. Он включает 225 взаимодействий и 900 вопросов, сосредоточенных на трех концепциях ToM: вывод убеждений, вывод социальных целей и вывод убеждений о целях. В экспериментах 18 участников из Prolific ответили на 90 случайно выбранных вопросов из бенчмарка MuMA-ToM, достигнув высокой точности в 93,5%. Современные модели, включая Gemini 1.5 Pro и Llava 1.6, показали значительно худшие результаты, с лучшей точностью модели на уровне 56,4%. Модель LIMP превзошла другие с точностью 76,6% за счет эффективного объединения многомодальных входных данных и использования естественного языка для вывода действий.
В заключение, MuMA-ToM является первым мультимодальным бенчмарком Теории Разума для оценки ментального рассуждения в сложных мульти-агентных взаимодействиях. Он использует видео и текстовые входы для оценки понимания целей и убеждений в реалистичных домашних условиях. Бенчмарк систематически оценил человеческую производительность и протестировал современные модели, предложив модель LIMP (Language model-based Inverse Multi-agent Planning), которая превзошла существующие модели, включая GPT-4o и Gemini-1.5 Pro.
Будущая работа будет расширять бенчмарк на более сложные реальные сценарии, включая взаимодействия с участием нескольких агентов и видео из реального мира.
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте MuMA-ToM: A Multimodal Benchmark for Advancing Multi-Agent Theory of Mind Reasoning in AI.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI. Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/flycodetelegram.
Попробуйте ИИ ассистент в продажах https://flycode.ru/aisales/ Этот ИИ ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru