Новый тест для оценки производительности и надежности искусственного интеллекта в реальных условиях работы с динамическим взаимодействием пользователя и инструментов

 τ-bench: A New Benchmark to Evaluate AI Agents’ Performance and Reliability in Real-World Settings with Dynamic User and Tool Interaction

Новый бенчмарк τ-bench для оценки производительности и надежности ИИ-агентов в реальных условиях с динамическим взаимодействием пользователя и инструментов

Текущие бенчмарки для языковых агентов не обеспечивают полноценную оценку их способности взаимодействовать с людьми или соблюдать сложные, относящиеся к конкретной области, правила – что существенно для практического применения. Например, агент по бронированию авиабилетов должен уметь изменять бронирования, соблюдать правила авиакомпании и точно ориентироваться в системах бронирования. Однако существующие бенчмарки в основном сосредоточены на упрощенных автономных задачах без человеческого взаимодействия или соблюдения правил, что ограничивает их применимость для реальных сценариев.

Практические решения и ценность

Исследователи из Sierra представили τ-bench – новый бенчмарк, разработанный для имитации динамических разговоров между языковым агентом и симулированным человеческим пользователем, включая API и правила. Этот бенчмарк оценивает способность агента взаимодействовать последовательно и надежно, сравнивая окончательное состояние базы данных после разговора со желаемым состоянием. Эксперименты в областях обслуживания клиентов, таких как розничная торговля и авиакомпании, показывают, что передовые агенты, такие как GPT-4o, успешно справляются с менее чем 50% задач и проявляют несогласованное поведение в разных испытаниях. Цель τ-bench – стимулировать развитие более надежных агентов, способных к сложному мышлению и последовательному соблюдению правил в реальном мире.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект