Набор задач CORE-Bench на Python и R из 90 научных статей.

 CORE-Bench: A Benchmark Consisting of 270 Tasks based on 90 Scientific Papers Across Computer Science, Social Science, and Medicine with Python or R Codebases


Преобразование научных исследований с помощью AI: CORE-Bench

Проблема воспроизводимости

В научных исследованиях, включая психологию, экономику, медицину и информатику, воспроизводимость вычислений представляет собой значительное препятствие. Недавние исследования выявили серьезные недостатки в этой области, такие как различия в версиях программных библиотек, несовместимость старых библиотек с новым оборудованием и проблемы с воспроизводимостью результатов. CORE-Bench предлагает решение для автоматизации воспроизводимости и оценки навыков агентов AI.

Решение с CORE-Bench

Исследователи из Принстонского университета представили CORE-Bench, обширный бенчмарк, включающий 270 задач из 90 научных статей по информатике, социальным наукам и медицине. CORE-Bench оценивает навыки в программировании, взаимодействии с оболочкой, поиске и использовании инструментов. Бенчмарк предлагает три уровня сложности на основе информации о воспроизводимости, симулируя реальные сценарии, с которыми могут столкнуться исследователи.

Значение CORE-Bench

CORE-Bench оценивает широкий спектр навыков, необходимых для воспроизведения научных исследований, включая понимание инструкций, отладку кода, извлечение информации и интерпретацию результатов в различных областях. Задачи включают текстовые и изображенческие выводы, что позволяет агентам AI эффективно обрабатывать разнообразные научные данные.

Результаты и перспективы

Оценки показали, что CORE-Agent, основанный на GPT-4o, является лучшим агентом по всем уровням сложности CORE-Bench. Это подчеркивает значимость задачно-специфических модификаций общих агентов AI для воспроизводимости научных работ. CORE-Bench призван улучшить возможности агентов для автоматизации воспроизводимости вычислений, что может значительно сократить необходимость в человеческом труде для этой важной, но трудоемкой научной деятельности.

Используйте CORE-Bench для улучшения вашей компании с помощью AI и оставайтесь впереди конкурентов.



Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект