Автоматизация рабочих процессов обучения с подкреплением с использованием моделей видео-языков: к автономному овладению робототехническими задачами
Недавние достижения в использовании крупных моделей видео-языков (VLM) и моделей языка (LLM) значительно повлияли на обучение с подкреплением (RL) и робототехнику. Эти модели продемонстрировали свою полезность в обучении политик роботов, высокоуровневом рассуждении и автоматизации создания функций вознаграждения для обучения политик. Этот прогресс заметно сократил необходимость в знаниях, специфичных для области, обычно требуемых от исследователей RL.
Значение
Развитие автоматизированного подхода, способного интегрировать различные этапы в рабочий процесс RL, позволяет снизить необходимость человеческого вмешательства на всем этапе процесса.
Практические решения
Использование LLM-агентов в области научных и инженерных разработок для автоматизации задач программирования и анализа научных данных показывает потенциал моделей LLM в автоматизации сложных процессов в физических средах. Однако основной вызов заключается в разработке интегрированных систем, способных автоматизировать всю экспериментальную рабочую среду, особенно в обучении с подкреплением для робототехники.
Новая архитектура агента от DeepMind предлагает инновационный подход к автоматизации ключевых аспектов рабочего процесса RL с использованием VLM для выполнения типичных задач, обычно выполняемых человеческими экспериментаторами. Этот подход позволяет автоматизировать создание учебных программ для обучения и представляет одно из первых предложений системы, использующей VLM на протяжении всего цикла RL.
Прототип этой системы, использующий стандартную модель Gemini без дополнительной настройки, демонстрирует практический подход к интеграции VLM в рабочий процесс RL, позволяя автоматизировать предложение задач, их декомпозицию и выполнение в симулированной робототехнической среде.
Исследователи оценили свой подход с помощью симулированной задачи робототехнического манипулирования в MuJoCo, что продемонстрировало возможности системы в предложении новых задач, декомпозиции и анализе процесса обучения.
Заключение
Предложенная инновационная архитектура агента для обучения с подкреплением с использованием VLM показала потенциал в автоматическом приобретении и овладении новыми навыками автономными агентами. Она представляет значительный шаг в направлении более автономных и эффективных систем обучения с подкреплением в робототехнике.
Подробности исследования можно изучить в соответствующей статье.