Исследование Salesforce AI предлагает набор данных для улучшения согласованности рассуждений LLM

 Salesforce AI Research Proposes Dataset-Driven Verifier to Improve LLM Reasoning Consistency

Проблемы больших языковых моделей (LLM)

Большие языковые модели часто не могут последовательно и точно выполнять многоступенчатое рассуждение, особенно в сложных задачах, таких как решение математических задач и генерация кода. Они испытывают трудности с обнаружением и обучением на ошибках, так как в основном обучаются на правильных решениях. Это приводит к проблемам с проверкой и ранжированием результатов, особенно когда присутствуют незначительные ошибки.

Новое решение от исследователей

Исследователи из Университета Нотр-Дам и Salesforce AI представили инновационную структуру, которая увеличивает вычислительные возможности в процессе вывода, создавая несколько путей рассуждения для сложных задач. Проверяющие оценивают эти пути и ранжируют сгенерированные результаты по правильности, что улучшает точность.

Создание уникального набора данных

Команда разработала обширный набор данных, включающий как правильные, так и неправильные решения для математических и кодовых задач, сгенерированных различными LLM. Этот набор данных уникален, так как охватывает разнообразные шаблоны решений, что позволяет проверяющим лучше различать правильные и ошибочные ответы.

Интеграция методов рассуждения

Исследователи использовали стратегии Chain-of-Thought (CoT) и Program-of-Thought (PoT) для разработки нового подхода к совместной проверке, который сочетает в себе пошаговое рассуждение и валидацию исполняемого кода.

Результаты и достижения

Результаты показывают значительные улучшения по сравнению с предыдущими методами. Проверяющие Math-Rev и Code-Rev достигли передовой точности на таких тестах, как GSM8k и MATH, даже превзойдя производительность GPT-4o и LLaMA3.

Преимущества нового подхода

Методы проверки, такие как SimPO, показали лучшие результаты, чем традиционные модели вознаграждения. Интеграция методов CoT и PoT для верификации, названная CoTnPoT, оказалась эффективной в повышении точности проверки.

Заключение

Это исследование представляет новый подход к улучшению возможностей рассуждения LLM, интегрируя совместную проверку с несколькими путями рассуждения. Исследователи стремятся способствовать будущим достижениям в увеличении вычислительных мощностей и повышении надежности LLM.

Как использовать ИИ для вашего бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, следуйте этим шагам:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить.
  • Подберите подходящее ИИ решение.
  • Внедряйте ИИ постепенно, начиная с небольших проектов.
  • Расширяйте автоматизацию на основе полученных данных и опыта.

Получите помощь по внедрению ИИ

Если вам нужны советы, пишите нам. Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект