Алгоритм гибридного обучения с подкреплением, использующий оффлайн-данные для оптимизации предпочтений и онлайн-данные для регуляризации KL-дивергенции

 HyPO: A Hybrid Reinforcement Learning Algorithm that Uses Offline Data for Contrastive-based Preference Optimization and Online Unlabeled Data for KL Regularization

HyPO: Гибридный алгоритм обучения с подкреплением, использующий офлайн-данные для контрастивной оптимизации предпочтений и онлайн-неразмеченные данные для регуляризации KL

Исследование в области искусственного интеллекта акцентирует внимание на тонкой настройке больших языковых моделей (LLM) для соответствия приоритетам человека. Эта настройка обеспечивает генерацию полезных, актуальных и соответствующих ответов систем ИИ ожиданиям пользователей. Текущий подход в области ИИ подчеркивает обучение на предпочтительных данных человека для улучшения этих моделей, решая проблему сложности ручной спецификации функций вознаграждения для различных задач. Два основных подхода в этой области – онлайн обучение с подкреплением (RL) и офлайн контрастивные методы, каждый из которых имеет уникальные преимущества и вызовы.

Применимые практические решения

Одной из центральных проблем тонкой настройки LLM на предпочтения человека является ограниченный охват статических наборов данных. Эти наборы могут не соответствовать разнообразию и динамике предпочтений человека в реальных приложениях. Проблема охвата наборов данных особенно остро проявляется, когда модели обучаются исключительно на заранее собранных данных, что может привести к недостаточной производительности. Это подчеркивает необходимость методов эффективного использования статических наборов данных и данных в реальном времени для улучшения соответствия модели предпочтениям человека.

Существующие методы тонкой настройки предпочтений в LLM включают онлайн методы обучения с подкреплением, такие как оптимизация приближенной политики (PPO), и офлайн контрастивные методы, такие как прямая оптимизация предпочтений (DPO). Онлайн методы обучения с подкреплением включают двухэтапную процедуру, при которой модель вознаграждения обучается на фиксированном офлайн-наборе предпочтений, за которым следует обучение с использованием онлайн-данных. Этот подход имеет преимущества реальной обратной связи, но требует вычислительных ресурсов. В отличие от этого, офлайн контрастивные методы оптимизируют политики на основе только предварительно собранных данных, избегая необходимости выборки в реальном времени, но потенциально страдая от переобучения и ограниченных возможностей обобщения.

Исследователи из Университета Карнеги-Меллон, компании Aurora Innovation и Корнеллского университета представили новый метод под названием HyPO. Этот гибридный подход объединяет преимущества онлайн и офлайн методов с целью повышения производительности модели при сохранении вычислительной эффективности.

HyPO использует сложный алгоритмический каркас, который использует офлайн-данные для цели DPO и онлайн выборки для контроля обратной дивергенции KL. Алгоритм итеративно обновляет параметры модели, оптимизируя потери DPO и включая регуляризационный член KL, полученный из онлайн-выборок. Этот гибридный подход эффективно решает недостатки чисто офлайн методов, таких как переобучение и недостаточный охват наборов данных, интегрируя преимущества онлайн методов обучения с подкреплением, но без их вычислительной сложности.

Эмпирические результаты

Производительность HyPO была оценена на нескольких показателях, включая задачу TL;DR и общие бенчмарки чата, такие как AlpacaEval 2.0 и MT-Bench. Результаты были впечатляющими, с HyPO, достигшим победного результата 46.44% в задаче TL;DR с использованием модели Pythia 1.4B, по сравнению с 42.17% для метода DPO. Для модели Pythia 2.8B HyPO достиг победного результата 50.50%, значительно превзойдя 44.39% для DPO. Кроме того, HyPO продемонстрировал превосходный контроль над обратной дивергенцией KL, со значениями 0.37 и 2.51 для моделей Pythia 1.4B и 2.8B соответственно, по сравнению с 0.16 и 2.43 для DPO.

В общих бенчмарках чата HyPO также показал заметные улучшения. Например, в оценке MT-Bench модели, настроенные с помощью HyPO, достигли оценок 8.43 и 8.09 в среднем по первому и второму ходу соответственно, превосходя оценки моделей, настроенных с помощью DPO в 8.31 и 7.89. Аналогично, в AlpacaEval 2.0 HyPO достиг 30.7% и 32.2% победных результатов на первом и втором ходах соответственно, по сравнению с 28.4% и 30.9% для DPO.

Эмпирические результаты подчеркивают способность HyPO уменьшать проблемы переобучения, которые часто наблюдаются в офлайн контрастивных методах. Например, когда модель обучалась на наборе данных TL;DR, HyPO сохранял средний KL-показатель валидации значительно ниже, чем у DPO, указывая на лучшее соответствие эталонной политике и снижение переобучения. Эта способность использовать онлайн данные для регуляризации помогает HyPO достигать более надежной производительности на различных задачах.

В заключение, введение гибридной оптимизации предпочтений (HyPO), эффективно объединяющей офлайн и онлайн данные, адресует ограничения существующих методов и улучшает соответствие больших языковых моделей предпочтениям человека. Повышение производительности, продемонстрированное в эмпирических оценках, подчеркивает потенциал HyPO в достижении более точных и надежных систем искусственного интеллекта.

Для подробностей найдите статью. Вся заслуга за данное исследование принадлежит его исследователям. Также не забудьте подписаться на наш Telegram канал и присоединиться к нашей группе по продажам. Если вам нравится наша работа, вы полюбите нашу рассылку.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Многоходовое Внимание: Революция в Понимании Языковых Моделей

    Введение в механизмы внимания в языковых моделях Языковые модели (LLMs) активно используют механизмы внимания для эффективного извлечения контекстной информации. Однако традиционные методы внимания ограничены однотокеновым вниманием, что может затруднять понимание сложных языковых зависимостей.…

  • Amazon Nova Act: Революция в автоматизации веб-задач

    Введение в Amazon Nova Act Amazon представил революционную модель ИИ под названием Nova Act, предназначенную для автоматизации различных веб-задач. Этот ИИ-агент может автоматизировать процессы, такие как заполнение форм, навигация по интерфейсу и управление…

  • Руководство для начинающих по терминалу и командной строке: основные команды и советы

    Практические бизнес-решения с использованием Terminal/Command Prompt Введение Terminal и Command Prompt – это мощные инструменты для взаимодействия с компьютерами, которые могут значительно повысить производительность и эффективность в бизнесе. Преимущества использования Terminal/Command Prompt Эффективная…

  • Гибридная система вознаграждений ByteDance: улучшение RLHF с помощью RTV и GenRM

    Введение в Гибридную Систему Наград в ИИ Недавнее исследование от ByteDance представляет значительное достижение в области искусственного интеллекта через гибридную систему наград. Эта система объединяет Проверяющие Задачи Размышления (RTV) и Генеративную Модель Наград…

  • Революционная платформа AI для интеграции рассуждений и поиска

    Введение в ReSearch: Прогрессивная AI-структура Обзор ReSearch ReSearch представляет собой продвинутую структуру, которая обучает большие языковые модели (LLM) комбинировать рассуждения с поиском с помощью обучения с подкреплением, устраняя необходимость в контролируемых данных для…

  • Использование Git и Git Bash: Руководство для бизнеса

    Бизнес-преобразование с помощью Git и искусственного интеллекта Введение Использование Git и Git Bash может значительно улучшить управление проектами. Эти инструменты позволяют командам отслеживать изменения кода и эффективно сотрудничать, что значительно повышает производительность бизнеса.…

  • Создание инструмента для анализа рентгеновских снимков с открытым исходным кодом

    Создание инструмента для оценки рентгеновских снимков с открытым исходным кодом Практические бизнес-решения Создание прототипа инструмента для оценки рентгеновских снимков может значительно улучшить процессы диагностики и повысить качество обслуживания клиентов в медицинских учреждениях. Использование…

  • Увеличение разнообразия креативного письма с помощью DPO и ORPO в ИИ моделях

    Улучшение креативного письма с помощью ИИ: Практические решения для бизнеса Понимание проблемы креативного письма в ИИ Креативное письмо требует разнообразия и воображения, что представляет собой уникальную задачу для систем искусственного интеллекта (ИИ). В…

  • Оценка юридических ответов на соответствие GDPR с помощью платформы Atla

    Оценка юридических ответов для соблюдения GDPR с помощью платформы Atla Обзор Данный гид описывает практический подход к оценке качества юридических ответов, сгенерированных языковыми моделями, с использованием платформы Atla и Python SDK. Наша цель…

  • VideoMind: Прорыв в понимании видео с помощью ИИ

    Видеоминд: Применение AI для понимания видео Видеоминд представляет собой значительное достижение в области искусственного интеллекта, особенно в понимании видео. Этот инновационный подход решает уникальные задачи анализа видеоконтента. Понимание задач видеоконтента Видеоматериалы более сложны…

  • Hostinger Horizons: Создавайте веб-приложения без кода с помощью ИИ

    Практические бизнес-решения с использованием Hostinger Horizons Hostinger Horizons предлагает уникальные возможности для бизнеса благодаря своей платформе без кода, которая упрощает создание веб-приложений. Вот как это может улучшить бизнес и реальную жизнь: Преимущества использования…

  • Hunyuan-T1: Революция в Искусственном Интеллекте для Бизнеса

    Практические бизнес-решения Преобразование рабочих процессов Искусственный интеллект может значительно улучшить бизнес-операции. Вот практические шаги, которые стоит рассмотреть: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. 2. Улучшите взаимодействие с…

  • FFN Fusion от NVIDIA: Революция в эффективности больших языковых моделей

    Введение в большие языковые модели Большие языковые модели (LLMs) становятся все более важными в различных секторах, обеспечивая работу приложений, таких как генерация естественного языка и разговорные агенты. Однако с увеличением размера и сложности…

  • UI-R1: Улучшение предсказания действий GUI с помощью обучения с подкреплением

    UI-R1 Framework: Улучшение предсказания действий GUI с помощью ИИ Обзор проблемы Традиционный метод обучения больших языковых моделей (LLMs) и агентов графического пользовательского интерфейса (GUI) требует больших объемов размеченных данных, что приводит к длительным…

  • Эффективное Масштабирование Времени Вывода для Бизнеса

    Оптимизация времени вывода для потоковых моделей: практические бизнес-решения Введение Недавние разработки в области искусственного интеллекта сместили акцент с увеличения размера модели и объема обучающих данных на повышение эффективности вычислений во время вывода. Эта…

  • Устойчивое развитие AI для временных рядов с помощью синтетических данных: инновационный подход Salesforce

    Возможности ИИ для анализа временных рядов с использованием синтетических данных Анализ временных рядов имеет огромное значение для бизнеса, но он сталкивается с проблемами доступности и качества данных. Использование синтетических данных может решить эти…

  • Руководство по решению уравнения Бюргера 1D с помощью PINNs в PyTorch

    Практическое руководство по преобразованию бизнеса с помощью ИИ Это руководство демонстрирует, как использовать физически обоснованные нейронные сети (PINNs) для решения уравнения Бургенса и как такие технологии могут улучшить бизнес-процессы и реальную жизнь. Шаги…

  • Открытие OpenVLThinker-7B: Новый уровень визуального мышления для бизнеса

    Улучшение визуального мышления с OpenVLThinker-7B Понимание проблемы Модели, объединяющие обработку языка и интерпретацию изображений, испытывают трудности с многошаговым мышлением. Это создает проблемы в таких задачах, как понимание графиков и решение визуальных математических задач.…