Навигация с использованием визуальных и языковых данных (VLN)
Навигация VLN сочетает визуальное восприятие и понимание естественного языка, чтобы направлять агентов в 3D-пространствах. Это позволяет агентам следовать инструкциям, похожим на человеческие, и эффективно ориентироваться в сложных пространствах. Такие технологии могут быть полезны в робототехнике, дополненной реальности и умных помощниках.
Проблемы в исследовании VLN
Основная проблема заключается в нехватке качественных аннотированных данных, которые связывают траектории навигации с точными языковыми инструкциями. Ручная аннотация требует значительных ресурсов и времени, что делает процесс дорогим и трудоемким. Часто аннотации не обеспечивают необходимую языковую точность, что ограничивает эффективность моделей в реальных приложениях.
Существующие решения
Существующие методы полагаются на генерацию синтетических данных и увеличение среды. Однако качество этих данных часто оставляет желать лучшего, что приводит к плохой согласованности между языком и траекториями навигации. Это снижает производительность агентов.
Предложенное решение: Система самоулучшающихся данных (SRDF)
Исследователи из Шанхайской лаборатории ИИ, UNC Chapel Hill, Adobe Research и Нанкинского университета предложили систему SRDF, которая улучшает как набор данных, так и модели через сотрудничество генератора инструкций и навигатора. Этот полностью автоматизированный метод исключает необходимость в ручной аннотации.
Система SRDF начинается с небольшого набора высококачественных аннотированных данных и генерирует синтетические инструкции для обучения навигатора. Навигатор оценивает качество этих инструкций и отбирает только надежные данные для последующих итераций. Это обеспечивает постоянное улучшение качества данных и производительности моделей.
Компоненты системы SRDF
Система состоит из двух основных компонентов: генератора инструкций и навигатора. Генератор создает синтетические инструкции навигации, а навигатор оценивает, насколько точно он может следовать сгенерированным путям. Качество данных определяется по строгим метрикам, что гарантирует использование только надежных данных для обучения.
Результаты и достижения
Система SRDF показала значительные улучшения в различных метриках. Например, на наборе данных Room-to-Room (R2R) метрика SPL для навигатора увеличилась с 70% до 78%, что превысило человеческий уровень в 76%. Это первый случай, когда агент VLN превзошел человеческую точность навигации.
Кроме того, система продемонстрировала превосходные результаты в долгосрочной навигации и диалоговой навигации, достигая передовых показателей во всех протестированных наборах данных.
Преимущества SRDF
Подход SRDF решает проблему нехватки данных в VLN, автоматизируя процесс улучшения набора данных. Это обеспечивает высокое качество и согласованность данных, что критически важно для развития интеллектуальных навигационных систем.
Как использовать ИИ для вашего бизнеса
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, следуйте этим шагам:
- Анализируйте, как ИИ может изменить вашу работу.
- Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
- Выберите подходящее решение из множества доступных вариантов ИИ.
- Внедряйте ИИ постепенно: начните с небольшого проекта, анализируйте результаты и KPI.
- На основе полученных данных расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам.
Попробуйте ИИ-ассистент в продажах, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.
Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.