Предобучение моделей действий без учителя: метод LAPA для визуально-языковых моделей действий без меток действий робота.

 Latent Action Pretraining for General Action models (LAPA): An Unsupervised Method for Pretraining Vision-Language-Action (VLA) Models without Ground-Truth Robot Action Labels

Модели Vision-Language-Action (VLA) для робототехники

Модели VLA обучаются путем сочетания больших языковых моделей с визуальными кодировщиками. Это позволяет роботам обрабатывать новые инструкции и объекты. Однако большинство реальных наборов данных требует человеческого контроля, что затрудняет масштабирование.

Преимущества использования интернет-видео

Интернет-видео предоставляет множество примеров человеческого поведения и взаимодействий, что помогает преодолеть ограничения небольших специализированных наборов данных. Однако обучение на видео сложно из-за отсутствия четких меток действий и различий в средах, где работают роботы.

Модели Vision-Language (VLM)

Модели VLM, обученные на больших наборах данных, показывают способность понимать и генерировать текст и мультимодальные данные. Включение дополнительных целей, таких как визуальные следы и языковые пути, улучшает производительность. Однако эти методы все еще зависят от размеченных данных, что ограничивает их масштабируемость.

Метод LAPA

Исследователи предложили метод LAPA, который использует видео без меток действий роботов. Он включает в себя обучение модели квантования действий и предобучение модели VLA для предсказания латентных действий. Этот метод значительно превосходит существующие техники и показывает лучшие результаты в реальных задачах манипуляции.

Этапы LAPA

LAPA состоит из двух этапов предобучения и последующей дообучения. На первом этапе действия разбиваются на более мелкие части, а на втором этапе модель предсказывает латентные действия на основе видео и описаний задач.

Преимущества LAPA

LAPA демонстрирует высокую эффективность, используя значительно меньше ресурсов для предобучения. Он также хорошо справляется с планированием действий робота на основе простых инструкций, что подчеркивает его потенциал для сложных роботизированных систем.

Заключение

LAPA — это масштабируемый метод предобучения для создания VLA с использованием видео без действий. Он значительно улучшает перенос на последующие задачи и превосходит существующие модели, обученные на размеченных данных.

Рекомендации по внедрению ИИ

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, используйте метод LAPA. Проанализируйте, как ИИ может изменить вашу работу, определите ключевые показатели эффективности и подберите подходящее решение. Внедряйте ИИ постепенно, начиная с малого проекта.

Получите помощь

Если вам нужны советы по внедрению ИИ, пишите нам. Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект