Исследователи Google DeepMind представляют Mobility VLA: навигация по инструкциям с использованием мультимодальных данных и топологических графов.

 Google DeepMind Researchers Present Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

“`html

Технологические новшества в области сенсоров, искусственного интеллекта и вычислительной мощности за последние десятилетия подняли навигацию роботов на новый уровень. Для того чтобы роботы стали обычной частью нашей жизни, многие исследования предлагают переносить естественное языковое пространство ObjNav и VLN в мультимодальное пространство, чтобы робот мог одновременно выполнять команды как в текстовом, так и визуальном форматах. Этот вид морской деятельности исследователи называют Мультимодальной Инструкционной Навигацией (MIN).

Практическое применение

MIN включает в себя широкий спектр действий, включая исследование окружающей среды и выполнение инструкций для навигации. Однако использование обзорного тура, охватывающего всю область, позволяет избежать необходимости частого исследования.

Решения и ценность

Исследование Google DeepMind представляет и исследует класс задач, называемый Мультимодальной Инструкционной Навигацией с Турами (MINT). MINT использует обзорные туры и занимается выполнением мультимодальных пользовательских инструкций. Важные возможности массовых моделей видения и языка (VLM) в интерпретации языка и изображений, а также в рассуждениях на основе здравого смысла, недавно продемонстрировали значительный потенциал в решении задач MINT.

Для решения MINT команда предлагает Mobility VLA, иерархическую навигационную политику Vision-Language-Action (VLA), которая интегрирует знание окружающей среды и способность интуитивного рассуждения на основе VLM с низкоуровневой навигационной политикой на основе топологических сетей. Тестирование Mobility VLA в реалистичной офисной среде и жилой зоне показало многообещающие результаты, подтверждающие его способности в реальных сценариях.

Помимо этого, Mobility VLA может быть реализован на множестве роботов благодаря низким требованиям к вычислительным мощностям и использованию только RGB-изображений, что открывает перспективы для широкого внедрения в области робототехники и искусственного интеллекта.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект