Преобразование научных исследований с помощью AI: CORE-Bench
Проблема воспроизводимости
В научных исследованиях, включая психологию, экономику, медицину и информатику, воспроизводимость вычислений представляет собой значительное препятствие. Недавние исследования выявили серьезные недостатки в этой области, такие как различия в версиях программных библиотек, несовместимость старых библиотек с новым оборудованием и проблемы с воспроизводимостью результатов. CORE-Bench предлагает решение для автоматизации воспроизводимости и оценки навыков агентов AI.
Решение с CORE-Bench
Исследователи из Принстонского университета представили CORE-Bench, обширный бенчмарк, включающий 270 задач из 90 научных статей по информатике, социальным наукам и медицине. CORE-Bench оценивает навыки в программировании, взаимодействии с оболочкой, поиске и использовании инструментов. Бенчмарк предлагает три уровня сложности на основе информации о воспроизводимости, симулируя реальные сценарии, с которыми могут столкнуться исследователи.
Значение CORE-Bench
CORE-Bench оценивает широкий спектр навыков, необходимых для воспроизведения научных исследований, включая понимание инструкций, отладку кода, извлечение информации и интерпретацию результатов в различных областях. Задачи включают текстовые и изображенческие выводы, что позволяет агентам AI эффективно обрабатывать разнообразные научные данные.
Результаты и перспективы
Оценки показали, что CORE-Agent, основанный на GPT-4o, является лучшим агентом по всем уровням сложности CORE-Bench. Это подчеркивает значимость задачно-специфических модификаций общих агентов AI для воспроизводимости научных работ. CORE-Bench призван улучшить возможности агентов для автоматизации воспроизводимости вычислений, что может значительно сократить необходимость в человеческом труде для этой важной, но трудоемкой научной деятельности.
Используйте CORE-Bench для улучшения вашей компании с помощью AI и оставайтесь впереди конкурентов.