Новый бенчмарк τ-bench для оценки производительности и надежности ИИ-агентов в реальных условиях с динамическим взаимодействием пользователя и инструментов
Текущие бенчмарки для языковых агентов не обеспечивают полноценную оценку их способности взаимодействовать с людьми или соблюдать сложные, относящиеся к конкретной области, правила – что существенно для практического применения. Например, агент по бронированию авиабилетов должен уметь изменять бронирования, соблюдать правила авиакомпании и точно ориентироваться в системах бронирования. Однако существующие бенчмарки в основном сосредоточены на упрощенных автономных задачах без человеческого взаимодействия или соблюдения правил, что ограничивает их применимость для реальных сценариев.
Практические решения и ценность
Исследователи из Sierra представили τ-bench – новый бенчмарк, разработанный для имитации динамических разговоров между языковым агентом и симулированным человеческим пользователем, включая API и правила. Этот бенчмарк оценивает способность агента взаимодействовать последовательно и надежно, сравнивая окончательное состояние базы данных после разговора со желаемым состоянием. Эксперименты в областях обслуживания клиентов, таких как розничная торговля и авиакомпании, показывают, что передовые агенты, такие как GPT-4o, успешно справляются с менее чем 50% задач и проявляют несогласованное поведение в разных испытаниях. Цель τ-bench – стимулировать развитие более надежных агентов, способных к сложному мышлению и последовательному соблюдению правил в реальном мире.