FLAMe: новая модель для надежной и эффективной оценки больших языковых моделей

 This AI Paper from Google AI Introduces FLAMe: A Foundational Large Autorater Model for Reliable and Efficient LLM Evaluation

FLAMe: Надежная и эффективная модель для оценки крупных языковых моделей

Оценка крупных языковых моделей (LLM) становится все более сложной из-за их сложности и универсальности. Гарантирование надежности и качества результатов этих моделей критически важно для развития технологий и приложений искусственного интеллекта. Исследователям необходима помощь в разработке надежных методов оценки для оценки точности и беспристрастности результатов LLM, учитывая субъективный, несогласованный и дорогостоящий характер человеческих оценок.

FLAMe: Новый подход к оценке LLM

Команда исследователей из Google DeepMind, Google и UMass Amherst представила FLAMe – семейство моделей Foundational Large Autorater, разработанных для улучшения оценки LLM. FLAMe использует большую и разнообразную коллекцию задач оценки качества, производных от человеческих оценок, для обучения и стандартизации авторейтеров. FLAMe обучается с использованием метода многозадачной дообучения на более чем 100 задачах оценки качества, охватывающих более 5 миллионов человеческих оценок. Этот подход позволяет FLAMe обобщаться на новые задачи и превосходить существующие модели, такие как GPT-4 и Claude-3.

Обучение FLAMe включает тщательный процесс сбора и стандартизации данных. Исследовательская группа отобрала человеческие оценки из предыдущих исследований, сосредоточившись на задачах, таких как качество машинного перевода и инструкции для искусственного интеллекта. Этот обширный набор данных был затем преобразован в единый текстовый формат, где каждая задача оценки качества была преобразована в пары ввод-цель. Входы содержат контексты, специфичные для задачи, а цели содержат ожидаемые человеческие оценки. Благодаря обучению на этом большом и разнообразном наборе данных, FLAMe учится надежным шаблонам человеческого суждения, минимизируя влияние шумных или низкокачественных данных.

Преимущества и применимость FLAMe

Производительность FLAMe впечатляет на различных бенчмарках. Модель FLAMe-RM-24B, вариант, настроенный для оценки моделирования вознаграждения, достигла точности 87,8% на RewardBench, превосходя как GPT-4-0125 (85,9%), так и GPT-4o (84,7%). На бенчмарке CoBBLEr bias, FLAMe проявляет значительно меньший уровень предвзятости по сравнению с другими моделями авторейтеров. Кроме RewardBench, производительность FLAMe впечатляет и на других бенчмарках. Модели FLAMe превосходят существующие LLM в 8 из 12 автоматизированных бенчмарков оценки качества, охватывающих 53 задачи оценки качества. Это включает задачи, такие как сравнение резюме, оценка полезности и оценка фактической точности.

FLAMe-Opt-RM, эффективный вариант, оптимизирует многозадачную смесь для оценки моделирования вознаграждения с использованием новой стратегии дообучения tail-patch. Этот метод позволяет достичь конкурентоспособной производительности на RewardBench с примерно в 25 раз меньшим количеством обучающих точек данных.

В заключение, FLAMe представляет собой значительный шаг в оценке крупных языковых моделей, обеспечивая надежность, беспристрастность и высокое качество их результатов. Это развитие готово улучшить разработку и внедрение технологий искусственного интеллекта.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект