Исследователи из Стэнфорда представили RT-Sketch, позволяющий повысить эффективность обучения роботов с помощью рукописных эскизов в качестве целевых спецификаций. Теперь компьютеры смогут учиться, используя наши рисунки. Удивительно, это будущее уже здесь! #наука #ИИ
RT-Sketch – это политика манипуляции, которая принимает рукописные эскизы в качестве входных данных и обучается на наборе сопряженных траекторий и синтетических целевых эскизов. Она модифицирует исходную политику RT-1, удаляя токенизацию языка FiLM и заменяя ее конкатенацией целевых изображений или эскизов с историей изображений в качестве входных данных для EfficientNet. Обучение осуществляется с помощью поведенческого клонирования для минимизации логарифма правдоподобия действий с учетом наблюдений и целевого эскиза. Сеть генерации изображений в эскиз дополняет набор данных RT-1 целевыми эскизами для обучения RT-Sketch. Исследование оценивает эффективность RT-Sketch в обработке эскизов разной детализации, включая свободные рисунки, линии и цветные изображения.
Исследование показало, что RT-Sketch работает конкурентоспособно, сравнимо с агентами, условием которых являются изображения или язык, в простых сценариях. Его способность достижения целей по рукописным эскизам особенно заметна. RT-Sketch проявляет большую устойчивость по сравнению с целями на основе языка при работе с неопределенностью или визуальными отвлечениями. Оценка включает измерение пространственной точности с использованием пиксельного расстояния и оценку семантического и пространственного соответствия, оцениваемого людьми с использованием 7-балльной шкалы Ликерта. Признавая его ограничения, исследование подчеркивает необходимость проверки обобщения RT-Sketch на эскизы от разных пользователей и случайное выполнение неправильных навыков.