Новый тест для оценки способностей к рассуждению больших языковых моделей.

 Compositional GSM: A New AI Benchmark for Evaluating Large Language Models’ Reasoning Capabilities in Multi-Step Problems


Compositional GSM: Новый AI-бенчмарк для оценки способностей к рассуждению крупных языковых моделей в задачах с несколькими шагами

Практические решения и ценность:

Исследователи выявили значительные пробелы в способностях к рассуждению. Например, модели с невысокой стоимостью, такие как GPT-4o mini, показали 2-12 раз худшую способность к рассуждению в составной GSM по сравнению с результатами на стандартном GSM8K. Это подчеркивает, что для подготовки моделей к многошаговым задачам требуется более специализированное обучение в математике.

Использование генерации кода вместо естественного языка привело к улучшению от 71% до 149% для некоторых небольших моделей в составной GSM. Это указывает на то, что генерация кода помогает уменьшить разрыв в рассуждениях, но не устраняет его, сохраняя систематические различия в способностях к рассуждению между различными моделями.

Исследование показывает, что текущие языковые модели, несмотря на успех на стандартных бенчмарках, продолжают испытывать трудности с составными задачами рассуждения. Бенчмарк Compositional GSM предлагает ценный инструмент для оценки способностей к рассуждению языковых моделей за пределами изолированного решения проблем.


Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект