SimpleToM: Оценка возможностей Теории Ума в Больших Языковых Моделях
Что такое Теория Ума (ToM)?
Теория Ума — это способность понимать, что другие люди имеют свои мысли и намерения. Это важно, поскольку большие языковые модели (БЯМ) все больше используются в взаимодействии с людьми.
Проблемы существующих методов оценки ToM
Существующие методы оценки ToM в БЯМ имеют ряд недостатков:
- Чрезмерная зависимость от классических тестов, таких как задача Салли-Анны.
- Недостаток разнообразия в сценариях с информационной асимметрией.
- Слишком сильная зависимость от явных слов, таких как “видит” и “думает”.
- Невозможность оценить неявное общее рассуждение и практическое применение ToM.
Решение: SimpleToM
Исследователи из Института ИИ Аллена, Университета Вашингтона и Стэнфордского университета разработали SimpleToM — новый набор данных для оценки возможностей ToM в БЯМ.
Как работает SimpleToM?
SimpleToM включает:
- Три уровня вопросов, которые тестируют различные аспекты ToM.
- Сюжеты, отражающие реальные сценарии, например, покупки в магазине.
- Избежание явных слов, чтобы модели делали неявные выводы.
Процесс создания SimpleToM
SimpleToM создается в три этапа:
- Ручное создание начальных историй.
- Генерация вариантов историй с помощью БЯМ.
- Человеческая проверка и аннотирование историй.
Результаты анализа SimpleToM
Анализ показывает, что современные модели, такие как GPT-4, хорошо справляются с пониманием мыслей, но имеют проблемы с предсказанием поведения и оценкой действий. Это подчеркивает необходимость улучшения в применении ToM в реальных сценариях.
Практическое применение
Для компаний, стремящихся использовать ИИ, важно:
- Анализировать, как ИИ может улучшить работу.
- Определить ключевые показатели эффективности (KPI) для улучшения.
- Постепенно внедрять ИИ-решения, начиная с небольших проектов.
Заключение
SimpleToM представляет собой значительный шаг вперед в оценке возможностей Теории Ума в БЯМ. Это поможет создать более социально компетентные ИИ-системы, которые смогут лучше взаимодействовать с людьми.