Новый набор данных для оценки возможностей нейронных теоремных доказательств.

 UT Austin Researchers Introduce PUTNAMBENCH: A Comprehensive AI Benchmark for Evaluating the Capabilities of Neural Theorem-Provers with Putnam Mathematical Problems

“`html

PUTNAMBENCH: Новый стандарт в оценке возможностей нейронных теоремных доказательств

Автоматизация математического рассуждения давно является целью искусственного интеллекта. Формальные структуры, такие как Lean 4, Isabelle и Coq, играют значительную роль в этом процессе. Они позволяют пользователям писать машинно-проверяемые доказательства математических теорем, предоставляя структурированную среду для решения сложных проблем. Разработка нейронных теоремных доказателей, направленных на автоматизацию этого процесса, требует строгих бенчмарков для оценки их эффективности и дальнейших исследований.

Недостатки текущих бенчмарков

Одной из критических проблем в теоремном доказательстве, основанном на искусственном интеллекте, является отсутствие комплексных бенчмарков, которые испытывали бы эти системы на продвинутых математических задачах. Существующие бенчмарки, такие как MINI F2F и FIMO, в основном фокусируются на математике уровня старших классов школы и не способны полностью проверить возможности нейронных теоремных доказателей на более сложных, университетского уровня, задачах. Этот пробел требует создания более надежного бенчмарка, охватывающего широкий спектр математических вызовов.

PUTNAMBENCH: Новый подход к оценке нейронных теоремных доказательств

Исследователи из Университета Техаса в Остине представили PUTNAMBENCH, новый бенчмарк, разработанный для оценки нейронных теоремных доказателей с использованием задач соревнования по математике Уильяма Лоуэлла Патнема. Это соревнование известно в Северной Америке своими сложными математическими задачами уровня колледжа, что делает его идеальным источником для строгого бенчмарка. PUTNAMBENCH включает 1697 формализаций 640 задач, доступных в Lean 4 и Isabelle, а значительная часть также доступна в Coq. Многоязычный подход обеспечивает комплексную оценку в различных средах теоремных доказательств.

Оценка PUTNAMBENCH

PUTNAMBENCH был протестирован на нескольких нейронных и символьных теоремных доказателях, включая Draft-Sketch-Prove, COPRA, GPT-4, Sledgehammer и Coqhammer. Результаты показали, что текущие методы могут решить лишь небольшую часть задач PUTNAMBENCH. Например, GPT-4 решил только одну из 640 задач в Lean 4 и Coq, в то время как Sledgehammer решил три из 640 задач в Isabelle.

Заключение

PUTNAMBENCH, представляя разнообразный набор формализаций задач соревнования Патнема на нескольких формальных языках доказательств, адресует ограничения существующих бенчмарков. Полученные результаты показывают, что, несмотря на прогресс, всё еще много работы в разработке нейронных теоремных доказателей, способных решать сложные математические задачи. PUTNAMBENCH будет несомненно иметь ключевое значение для дальнейших исследований и инноваций.

Источник изображения: UT Austin

Если вы хотите узнать больше о том, как ИИ может улучшить ваш бизнес, свяжитесь с нами.

Подписывайтесь на нашу рассылку, следите за нами в социальных сетях и присоединяйтесь к нашему каналу в Telegram для получения полезной информации о применении ИИ в бизнесе.

Не забудьте присоединиться к нашему сообществу в Reddit с более чем 46 тысячами участников.


“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект