“`html
Преимущества использования искусственного интеллекта в бизнесе
Использование искусственного интеллекта (ИИ) и машинного обучения (МО) привело к трансформации многих отраслей, но одной из значительных проблем остается воспроизводимость экспериментов. В связи с этим возникает потребность в автоматизации задач, связанных с установкой и выполнением кода из репозиториев исследований, чтобы ускорить научные открытия и позволить исследователям быстрее проверять и расширять свои результаты.
Проблемы воспроизводимости экспериментов и их решение
Одной из критических проблем в воспроизведении экспериментов из репозиториев исследований является их плохая обслуживаемость, отсутствие документации и устаревший код. Решение этой проблемы может значительно улучшить темпы подтверждения открытий и их дальнейшего развития в научном сообществе.
Бенчмарк SUPER и его значение
Исследователи из Allen Institute for AI и University of Washington представили бенчмарк SUPER, разработанный для оценки способности больших языковых моделей (LLM) устанавливать и выполнять задачи из репозиториев исследований. SUPER предлагает комплексную структуру для оценки того, насколько хорошо эти модели могут поддерживать научные задачи, включающие выполнение кода и устранение проблем.
Содержание бенчмарка SUPER
Бенчмарк SUPER разделен на три набора задач, каждый из которых представляет различные вызовы, от установки зависимостей до устранения ошибок и сообщения метрик.
Оценка производительности LLM на бенчмарке SUPER
Изучение производительности LLM на бенчмарке SUPER показало значительные ограничения текущих моделей. Даже самая передовая модель, GPT-4o, успешно решала всего 16,3% задач в наборе Expert и 46,1% подзадач в наборе Masked. Результаты бенчмарка указывают на то, что модели LLM проявляют себя лучше на конкретных задачах, таких как устранение конфликтов зависимостей, чем на более сложных задачах, например, настройка новых наборов данных или изменение сценариев обучения.
Заключение
Бенчмарк SUPER отражает текущие ограничения LLM в автоматизации научных задач. Несмотря на недавние достижения, остается значительный разрыв между возможностями этих моделей и сложными потребностями исследователей, работающих с реальными репозиториями. Этот бенчмарк является ценным ресурсом для оценки и улучшения LLM, предлагая путь к разработке более совершенных инструментов, способных полностью поддерживать научные исследования.
“`