Простая оценка способностей теории разума в больших языковых моделях

 SimpleToM: Evaluating Applied Theory of Mind Capabilities in Large Language Models

SimpleToM: Оценка возможностей Теории Ума в Больших Языковых Моделях

Что такое Теория Ума (ToM)?

Теория Ума — это способность понимать, что другие люди имеют свои мысли и намерения. Это важно, поскольку большие языковые модели (БЯМ) все больше используются в взаимодействии с людьми.

Проблемы существующих методов оценки ToM

Существующие методы оценки ToM в БЯМ имеют ряд недостатков:

  • Чрезмерная зависимость от классических тестов, таких как задача Салли-Анны.
  • Недостаток разнообразия в сценариях с информационной асимметрией.
  • Слишком сильная зависимость от явных слов, таких как “видит” и “думает”.
  • Невозможность оценить неявное общее рассуждение и практическое применение ToM.

Решение: SimpleToM

Исследователи из Института ИИ Аллена, Университета Вашингтона и Стэнфордского университета разработали SimpleToM — новый набор данных для оценки возможностей ToM в БЯМ.

Как работает SimpleToM?

SimpleToM включает:

  • Три уровня вопросов, которые тестируют различные аспекты ToM.
  • Сюжеты, отражающие реальные сценарии, например, покупки в магазине.
  • Избежание явных слов, чтобы модели делали неявные выводы.

Процесс создания SimpleToM

SimpleToM создается в три этапа:

  1. Ручное создание начальных историй.
  2. Генерация вариантов историй с помощью БЯМ.
  3. Человеческая проверка и аннотирование историй.

Результаты анализа SimpleToM

Анализ показывает, что современные модели, такие как GPT-4, хорошо справляются с пониманием мыслей, но имеют проблемы с предсказанием поведения и оценкой действий. Это подчеркивает необходимость улучшения в применении ToM в реальных сценариях.

Практическое применение

Для компаний, стремящихся использовать ИИ, важно:

  • Анализировать, как ИИ может улучшить работу.
  • Определить ключевые показатели эффективности (KPI) для улучшения.
  • Постепенно внедрять ИИ-решения, начиная с небольших проектов.

Заключение

SimpleToM представляет собой значительный шаг вперед в оценке возможностей Теории Ума в БЯМ. Это поможет создать более социально компетентные ИИ-системы, которые смогут лучше взаимодействовать с людьми.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект