Объединение языковых моделей и сетей управления для умных агентов

 NavGPT-2: Integrating LLMs and Navigation Policy Networks for Smarter Agents

“`html

NavGPT-2: Интеграция LLM и сетей навигационной политики для более умных агентов

LLM отлично обрабатывает текстовые данные, в то время как VLN в основном занимается визуальной информацией. Эффективное сочетание этих модальностей требует сложных техник для выравнивания и корреляции визуальных и текстовых представлений. Несмотря на значительные достижения в области LLM, существует разрыв в производительности, когда эти модели применяются к задачам VLN по сравнению с специализированными моделями, разработанными специально для навигации. LLM могут испытывать трудности с такими задачами, как понимание пространственных отношений между объектами и положением агента, а также разрешение неоднозначных ссылок на основе визуального контекста.

Решение NavGPT-2

Исследователи из Adobe Research, Университета Аделаиды, Шанхайской лаборатории искусственного интеллекта и Университета Калифорнии представили NavGPT-2 для интеграции крупных языковых моделей (LLM) с задачами видео- и языковой навигации (VLN). Исследование фокусируется на недостаточном использовании языковых интерпретационных способностей LLM, которые критически важны для генерации навигационного рассуждения и эффективного взаимодействия во время роботизированной навигации.

NavGPT-2 сочетает в себе крупную модель видео-языка (VLM) с сетью навигационной политики для улучшения возможностей VLN. VLM обрабатывает визуальные наблюдения с использованием Q-формера, который извлекает токены изображения, которые подаются на замороженную LLM для генерации навигационного рассуждения. Этот подход сохраняет языковые способности интерпретации LLM, решая их ограниченное понимание пространственных структур. Система использует навигационную политику на основе топологического графа для сохранения памяти траектории агента и обеспечения эффективного возврата назад. Метод NavGPT-2 включает многоступенчатый процесс обучения, начиная с настройки визуальных инструкций и заканчивая интеграцией VLM с сетью навигационной политики.

Предложенная модель оценивается на наборе данных R2R, демонстрируя значительное превосходство NavGPT-2 по сравнению с предыдущими методами на основе LLM и методами нулевого шага в показателях успешности и эффективности данных. Например, она превосходит производительность NaviLLM и NavGPT и показывает конкурентоспособные результаты по сравнению с передовыми специалистами VLN, такими как DUET.

В заключение, NavGPT-2 успешно решает ограничения интеграции LLM в задачи VLN путем эффективного сочетания языковых способностей LLM с специализированными навигационными политиками. Он отлично понимает и реагирует на сложные языковые инструкции, обрабатывает визуальную информацию и планирует эффективные навигационные пути. Преодолевая проблемы, такие как привязка языка к визии, обработка неоднозначных команд и адаптация к динамическим средам, NavGPT-2 открывает путь к более надежным и интеллектуальным автономным системам.

Проверьте статью и репозиторий на GitHub. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу 46 тыс. подписчиков на Reddit.

Найдите предстоящие вебинары по ИИ здесь.

Статья NavGPT-2: Интеграция LLM и сетей навигационной политики для более умных агентов впервые появилась на MarkTechPost.


“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект