Google DeepMind представляет WARP: новый метод обучения с подкреплением на основе обратной связи от людей для выравнивания LLM и оптимизации Pareto-фронта решений с помощью KL-наград.

 Google DeepMind Introduces WARP: A Novel Reinforcement Learning from Human Feedback RLHF Method to Align LLMs and Optimize the KL-Reward Pareto Front of Solutions

“`html

Google DeepMind представляет WARP: новый метод RLHF для оптимизации KL-наградного фронта решений и выравнивания LLMs

Метод обучения с подкреплением от обратной связи человека (RLHF) способствует генерации моделей с высокими наградами, используя модель вознаграждения, обученную на человеческих предпочтениях, для выравнивания больших языковых моделей (LLM). Однако RLHF имеет несколько нерешенных проблем. Во-первых, процесс донастройки часто ограничен небольшими наборами данных, что может привести к слишком специализированной модели и уменьшению ее умения рассуждать и производительности на языковых бенчмарках. Во-вторых, попытка максимизировать неполную модель вознаграждения может привести к проблемам, поскольку LLM может находить способы использовать недостатки модели вознаграждения. Наконец, RLHF может снизить разнообразие выводов, приводя к тому, что модель перестает производить разнообразные ответы.

Объединение моделей и их выгоды

Метод объединения весов (WA) позволяет улучшить обобщение путем уменьшения дисперсии, запоминания и выравнивания потерь. Кроме того, объединение весов объединяет их сильные стороны, что полезно в настройках с множественными задачами.

Weight Averaged Rewarded Policies (WARP)

Команда из Google DeepMind предложила метод WARP, который использует три типа WA на трех этапах процесса выравнивания для различных целей. WARP повышает эффективность, как показывают результаты эксперимента, где предложенные политики предпочитались над вариантами Mistral и превосходили предыдущие релизы Gemma “7B”.

Заключение

WARP – это новый метод RLHF для оптимизации KL-наградного фронта решений и выравнивания LLMs, который показывает превосходство над современными методами. Он способствует созданию безопасных и мощных систем ИИ путем улучшения выравнивания и поощрения дальнейшего изучения методов объединения моделей.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект