ToolHop: Новый набор данных для оценки LLM в сценариях многократного использования инструментов

 ToolHop: A Novel Dataset Designed to Evaluate LLMs in Multi-Hop Tool Use Scenarios

Многошаговые запросы и их значение

Многошаговые запросы всегда были сложной задачей для агентов больших языковых моделей (LLM). Они требуют нескольких этапов рассуждений и информации из разных источников. Эти запросы важны для анализа понимания, рассуждений и функциональных возможностей моделей.

Значение многошаговой оценки

С появлением новых больших моделей, которые обещают невероятные возможности, многошаговые инструменты помогают объективно оценить их, предоставляя сложные запросы, которые модели должны разложить на составляющие и решать поэтапно, используя подходящие инструменты.

Проблемы существующих методов

Существующие работы в этой области не предлагают надежных методов оценки. Методы, предложенные ранее, основывались на симуляции запросов для заданного набора инструментов, что не учитывало взаимозависимость инструментов и многошаговое рассуждение. Отсутствие проверяемых ответов также приводит к предвзятости моделей и ошибкам в оценке.

Решение: ToolHop

Исследователи из Университета Фудань и компании ByteDance представили ToolHop — набор данных, специально разработанный для оценки многошаговых инструментов. Он включает 995 тщательно разработанных пользовательских запросов и 3,912 связанных инструментов.

Преимущества ToolHop

  • Разнообразные запросы
  • Локально исполняемые инструменты
  • Смысловые взаимозависимости
  • Подробная обратная связь
  • Проверяемые ответы

Ключевые этапы подхода

Создание инструментов

Создается предварительный набор документов инструментов на основе пользовательского многошагового запроса. Документ структурируется так, чтобы сохранить взаимозависимость и актуальность.

Уточнение документации

Подготовленный документ проходит фильтрацию для поддержки оценки моделей в сложных многошаговых сценариях, добавляются новые функции и оптимизируются параметры.

Генерация кода

На этом этапе создаются локально исполняемые функции, что позволяет осуществлять взаимодействие между моделью и инструментами.

Результаты исследования

ToolHop был протестирован на 14 LLM из пяти семейств. Оценка показала, что использование инструментов увеличивает производительность моделей в среднем на 12%, а для моделей GPT — до 23%.

Выводы

Данное исследование представляет собой обширный набор данных для решения многошаговых запросов. Хотя LLM значительно улучшили свои возможности, использование инструментов все еще требует доработки.

Как применять ИИ в вашем бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, используйте ToolHop для оценки многошаговых запросов. Проанализируйте, как ИИ может изменить вашу работу, определите области для автоматизации и ключевые показатели эффективности (KPI), которые вы хотите улучшить.

Шаги к внедрению ИИ

  • Подберите подходящее решение из множества доступных вариантов ИИ.
  • Внедряйте ИИ постепенно, начиная с небольших проектов.
  • Анализируйте результаты и расширяйте автоматизацию.

Получите помощь

Если вам нужны советы по внедрению ИИ, пишите нам.

Попробуйте ИИ ассистента в продажах

Этот ИИ ассистент помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж, снижая нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект