Предложение исследователей Института искусственного интеллекта Аллена: SUPER – бенчмарк для оценки способности LLM проводить и выполнять исследовательские эксперименты

 Allen Institute for AI Researchers Propose SUPER: A Benchmark for Evaluating the Ability of LLMs to Set Up and Execute Research Experiments

“`html

Преимущества использования искусственного интеллекта в бизнесе

Использование искусственного интеллекта (ИИ) и машинного обучения (МО) привело к трансформации многих отраслей, но одной из значительных проблем остается воспроизводимость экспериментов. В связи с этим возникает потребность в автоматизации задач, связанных с установкой и выполнением кода из репозиториев исследований, чтобы ускорить научные открытия и позволить исследователям быстрее проверять и расширять свои результаты.

Проблемы воспроизводимости экспериментов и их решение

Одной из критических проблем в воспроизведении экспериментов из репозиториев исследований является их плохая обслуживаемость, отсутствие документации и устаревший код. Решение этой проблемы может значительно улучшить темпы подтверждения открытий и их дальнейшего развития в научном сообществе.

Бенчмарк SUPER и его значение

Исследователи из Allen Institute for AI и University of Washington представили бенчмарк SUPER, разработанный для оценки способности больших языковых моделей (LLM) устанавливать и выполнять задачи из репозиториев исследований. SUPER предлагает комплексную структуру для оценки того, насколько хорошо эти модели могут поддерживать научные задачи, включающие выполнение кода и устранение проблем.

Содержание бенчмарка SUPER

Бенчмарк SUPER разделен на три набора задач, каждый из которых представляет различные вызовы, от установки зависимостей до устранения ошибок и сообщения метрик.

Оценка производительности LLM на бенчмарке SUPER

Изучение производительности LLM на бенчмарке SUPER показало значительные ограничения текущих моделей. Даже самая передовая модель, GPT-4o, успешно решала всего 16,3% задач в наборе Expert и 46,1% подзадач в наборе Masked. Результаты бенчмарка указывают на то, что модели LLM проявляют себя лучше на конкретных задачах, таких как устранение конфликтов зависимостей, чем на более сложных задачах, например, настройка новых наборов данных или изменение сценариев обучения.

Заключение

Бенчмарк SUPER отражает текущие ограничения LLM в автоматизации научных задач. Несмотря на недавние достижения, остается значительный разрыв между возможностями этих моделей и сложными потребностями исследователей, работающих с реальными репозиториями. Этот бенчмарк является ценным ресурсом для оценки и улучшения LLM, предлагая путь к разработке более совершенных инструментов, способных полностью поддерживать научные исследования.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект