Новый набор данных MuMA-ToM для развития многопараметрового мышления в искусственном интеллекте

 MuMA-ToM: A Multimodal Benchmark for Advancing Multi-Agent Theory of Mind Reasoning in AI

Мультиагентный бенчмарк MuMA-ToM для продвижения теории разума в искусственном интеллекте

Для понимания социальных взаимодействий в сложных реальных ситуациях требуется глубокое мыслительное рассуждение для вывода основных ментальных состояний, определяющих эти взаимодействия, известных как Теория Разума (ToM). Социальные взаимодействия часто многомодальны, включая действия, разговоры и прошлые поведенческие реакции. Для того чтобы искусственный интеллект эффективно взаимодействовал в человеческой среде, он должен понимать эти ментальные состояния и их взаимосвязи.

Исследователи из Университета Джонса Хопкинса и Университета Вирджинии представили MuMA-ToM, первый бенчмарк для оценки мульти-модального, мульти-агентного мыслительного процесса во воплощенных взаимодействиях. MuMA-ToM представляет видео и текст, описывающие сценарии из реальной жизни, и задает вопросы о целях агентов и их убеждениях относительно целей других. Они проверили MuMA-ToM через человеческие эксперименты и представили LIMP (Language model-based Inverse Multi-agent Planning), новую модель ToM. LIMP превзошла существующие модели, включая GPT-4o и BIP-ALM, интегрируя двухуровневое рассуждение и устраняя необходимость в символьных представлениях.

Оценка моделей понимания мульти-агентных социальных взаимодействий

Бенчмарк MuMA-ToM оценивает модели понимания мульти-агентных социальных взаимодействий с использованием видео и текста. Он включает 225 взаимодействий и 900 вопросов, сосредоточенных на трех концепциях ToM: вывод убеждений, вывод социальных целей и вывод убеждений о целях. В экспериментах 18 участников из Prolific ответили на 90 случайно выбранных вопросов из бенчмарка MuMA-ToM, достигнув высокой точности в 93,5%. Современные модели, включая Gemini 1.5 Pro и Llava 1.6, показали значительно худшие результаты, с лучшей точностью модели на уровне 56,4%. Модель LIMP превзошла другие с точностью 76,6% за счет эффективного объединения многомодальных входных данных и использования естественного языка для вывода действий.

В заключение, MuMA-ToM является первым мультимодальным бенчмарком Теории Разума для оценки ментального рассуждения в сложных мульти-агентных взаимодействиях. Он использует видео и текстовые входы для оценки понимания целей и убеждений в реалистичных домашних условиях. Бенчмарк систематически оценил человеческую производительность и протестировал современные модели, предложив модель LIMP (Language model-based Inverse Multi-agent Planning), которая превзошла существующие модели, включая GPT-4o и Gemini-1.5 Pro.

Будущая работа будет расширять бенчмарк на более сложные реальные сценарии, включая взаимодействия с участием нескольких агентов и видео из реального мира.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте MuMA-ToM: A Multimodal Benchmark for Advancing Multi-Agent Theory of Mind Reasoning in AI.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI. Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/flycodetelegram.

Попробуйте ИИ ассистент в продажах https://flycode.ru/aisales/ Этот ИИ ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект