Исследователи Apple представили новый бенчмарк для машинного обучения, который помогает лучше понять математические способности больших языковых моделей.

 Apple Researchers Introduce GSM-Symbolic: A Novel Machine Learning Benchmark with Multiple Variants Designed to Provide Deeper Insights into the Mathematical Reasoning Abilities of LLMs

Недавние достижения в области LLM: Исследование возможностей логического мышления

Недавние успехи в разработке языковых моделей (LLM) вызвали интерес к их способностям к математическому мышлению, особенно с использованием теста GSM8K. Хотя LLM показывают улучшенные результаты, остаются сомнения, действительно ли их логическое мышление стало лучше. Исследования показывают, что LLM используют вероятностное сопоставление шаблонов вместо настоящего логического рассуждения, что приводит к предвзятости и чувствительности к небольшим изменениям ввода.

Проблемы и новые решения

Направление логического мышления необходимо для интеллектуальных систем. Однако, его постоянство в LLM еще не установлено. Нужны более формальные подходы, так как изменения во входных данных могут существенно влиять на результаты. Инженеры из Apple разработали новый тест — GSM-Symbolic, который генерирует разнообразные математические вопросы, обеспечивая более надежную оценку. Результаты показывают, что производительность LLM значительно снижается при увеличении числовых значений или сложности вопросов, что подтверждает зависимость от сопоставления шаблонов.

GSM-Symbolic и его преимущества

Набор данных GSM8K содержит более 8000 вопросов, однако его популярность привела к таким рискам, как загрязнение данных и изменчивость результатов. Новый тест GSM-Symbolic генерирует разнообразные задачи, что позволяет лучше оценивать LLM. Он использует 5000 образцов из 100 шаблонов, что дает представление о возможностях и ограничениях математического мышления LLM.

Результаты исследования

Первые эксперименты показали значительную изменчивость производительности моделей на тесте GSM-Symbolic. Изменение значений значительно ухудшает результаты. Сложность вопросов также влияет на точность, и более сложные задачи показывают большие потери производительности. Эти результаты подчеркивают, что модели опираются на сопоставление шаблонов, а не на настоящее логическое понимание.

Нужда в развитии

Исследование показало ограничения существующих методов оценки LLM. Новый тест, GSM-Symbolic, раскрывает значительную изменчивость производительности, особенно при изменении числовых значений и добавлении ненужных условий. Это подчеркивает необходимость дальнейшего развития, чтобы улучшить логические способности LLM.

Как ваш бизнес может воспользоваться ИИ

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, начните с анализа, как ИИ может изменить вашу работу. Определите области для автоматизации и ключевые показатели эффективности (KPI), которые вы хотите улучшить.

Подберите подходящее ИИ-решение и начните с малого проекта. Анализируйте результаты и расширяйте автоматизацию на основе полученных данных и опыта.

Если вам нужны советы по внедрению ИИ, пишите нам.

Попробуйте ИИ-ассистента в продажах, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект