Новый метод обучения устройств с помощью автономного обучения с подкреплением DigiRL.

 DigiRL: A Novel Autonomous Reinforcement Learning RL Method to Train Device-Control Agents

«`html

Применение DigiRL: Новый автономный метод обучения управляющих агентов с использованием обучения с подкреплением

Исследования в области моделей зрение-язык (VLM) продемонстрировали впечатляющие способности к здравому смыслу, рассуждению и обобщению. Это означает, что разработка полностью независимого цифрового помощника с использованием естественного языка, способного выполнять повседневные компьютерные задачи, является возможной. Однако лучшие способности рассуждения и здравого смысла не автоматически приводят к интеллектуальному поведению помощника. Искусственные интеллект-ассистенты используются для выполнения задач, рационального поведения и восстановления после ошибок, а не просто для предоставления правдоподобных ответов на основе предварительно обученных данных.

Практические решения и ценность

Для преобразования способностей предварительного обучения в практические «агенты» ИИ требуется метод. Даже лучшие модели VLM, такие как GPT-4V и Gemini 1.5 Pro, все еще испытывают трудности в выполнении правильных действий при выполнении задач на устройствах.

В данной статье обсуждаются три существующих метода. Первый метод — обучение мульти-модальных цифровых агентов, которые сталкиваются с вызовами, такими как управление устройством, выполняемое непосредственно на уровне пикселей в пространстве действий на основе координат, а также стохастический и непредсказуемый характер экосистем устройств и интернета.

Второй метод — среды для агентов управления устройствами. Эти среды предназначены для оценки и предлагают ограниченный набор задач в полностью детерминированных и стационарных условиях.

Последний метод — Обучение с подкреплением (RL) для LLM/VLM, где исследования с RL для моделей основных данных сосредоточены на задачах однократного обращения, таких как оптимизация предпочтений, но оптимизация однократного взаимодействия на основе экспертных демонстраций может привести к неоптимальным стратегиям для многошаговых проблем.

Исследователи из Университета Калифорнии в Беркли, UIUC и Google DeepMind представили DigiRL (RL для цифровых агентов), новый автономный метод RL для обучения агентов управления устройствами. Результирующий агент достигает передовой производительности по нескольким задачам управления устройствами Android. Процесс обучения включает две фазы: сначала начальная фаза автономного RL для инициализации агента с использованием существующих данных, а затем фаза автономного RL из офлайн в онлайн, которая используется для настройки модели, полученной из офлайн RL, на онлайн-данных.

Исследователи провели эксперименты для оценки производительности DigiRL в решении сложных проблем управления устройствами Android. Важно понять, имеет ли DigiRL потенциал создавать агентов, которые могут эффективно учиться через автономное взаимодействие, сохраняя при этом возможность использовать офлайн-данные для обучения.

Агент, обученный с использованием DigiRL, был протестирован на различных задачах из набора данных Android in the Wild (AitW) с использованием реальных эмуляторов устройств Android. Агент достиг улучшения на 28,7% по сравнению с существующими передовыми агентами (увеличение успешности с 38,5% до 67,2%) 18B CogAgent. Он также превзошел предыдущий лучший метод автономного обучения на основе фильтрованного клонирования поведения на более чем 9%. Более того, несмотря на то, что у агента было всего 1,3 миллиарда параметров, он продемонстрировал более высокую производительность, чем продвинутые модели, такие как GPT-4V и Gemini 1.5 Pro (17,7% успешных задач). Это делает его первым агентом, достигшим передовой производительности в управлении устройствами с использованием автономного подхода RL из офлайн в онлайн.

В заключение, исследователи предложили DigiRL, новый автономный подход RL для обучения агентов управления устройствами, который устанавливает новую передовую производительность по нескольким задачам управления устройствами Android из AitW. Для этого была разработана масштабируемая и параллельная среда Android с надежным универсальным оценщиком на основе VLM для быстрого сбора онлайн-данных. Агент, обученный с использованием DigiRL, достиг улучшения на 28,7% по сравнению с существующими передовыми агентами 18B CogAgent. Однако обучение было ограничено задачами из набора данных AitW, а не всеми возможными задачами устройств. Поэтому в будущем планируется проведение исследований алгоритмов и расширение пространства задач, что сделает DigiRL базовым алгоритмом.

Практическое применение ИИ

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте DigiRL: A Novel Autonomous Reinforcement Learning RL Method to Train Device-Control Agents.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь с ключевыми показателями эффективности (KPI), которые вы хотите улучшить с помощью ИИ.

Подберите подходящее решение — сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI. На основе полученных данных и опыта расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/flycodetelegram.

Попробуйте ИИ ассистент в продажах https://flycode.ru/aisales/. Этот ИИ ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

«`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Itinai.com it company office background blured photography by 93e48de1 e0a4 4327 bf1a 5249ee257f75 0

    Запуск HealthBench: Новый стандарт оценки ИИ в здравоохранении

    Введение в HealthBench HealthBench — это опенсорсная платформа для оценки производительности ИИ в здравоохранении, разработанная OpenAI. Она позволяет улучшить взаимодействие между ИИ и медицинскими работниками, обеспечивая более точные и безопасные результаты. Проблемы в…

  • Itinai.com it company office background blured photography by c2deb05c 8496 4a4d 8cab 2bb3d57fc0f0 1

    Продвижение многомодального ИИ: практические бизнес-решения

    Понимание многомодального ИИ Искусственный интеллект (ИИ) значительно расширился за пределы традиционных систем обработки языка. Сегодня существуют модели, которые могут обрабатывать различные типы входных данных, включая текст, изображения, аудио и видео. Эта область, известная…

  • Itinai.com it company office background blured photography by d266ecb7 1141 4fd8 a45e d7242fbf1e9e 0

    Создайте и опубликуйте свой AI-блог с Lovable.dev и интеграцией GitHub

    Практические бизнес-решения с использованием искусственного интеллекта Как это улучшает бизнес и реальную жизнь Создание блога с помощью Lovable.dev позволяет компаниям быстро и эффективно запустить онлайн-присутствие. Это улучшает видимость бренда, привлекает клиентов и увеличивает…

  • Itinai.com it company office background blured photography by 41bad236 c948 453e 803a 7165a764e0bf 1

    StreamBridge: Преобразование Видео-LLMs для Реального Времени

    Бизнес-Трансформация с помощью Искусственного Интеллекта Понимание Ограничений Video-LLMs Video-LLMs предназначены для анализа записанных видео. Однако, такие отрасли, как робототехника и автономное вождение, требуют понимания видео в реальном времени. Это создает значительные трудности, так…

  • Itinai.com it company office background blured photography by b78d385e b261 4424 829c 8c380ea5040f 1

    Запуск INTELLECT-2: Децентрализованная модель рассуждений с 32 миллиардами параметров

    Проблемы централизованного обучения ИИ Традиционные методы централизованного обучения сталкиваются с ограничениями из-за высокой стоимости вычислительных кластеров и нехватки ресурсов. Это затрудняет эксперименты и сотрудничество в исследованиях. Децентрализованные решения Переход к децентрализованным методам обучения…

  • Itinai.com it company office background blured photography by 392d7806 596c 4c64 a1ae 56d85025c3f2 1

    AG-UI: Революция в Реальном Времени для Взаимодействия AI и Front-End Приложений

    AG-UI: Упрощение Взаимодействия с ИИ в Реальном Времени Современные достижения в области искусственного интеллекта значительно улучшили автоматизацию задач, таких как суммирование, миграция данных и планирование. Однако, чтобы повысить эффективность бизнеса, необходимо внедрить решения,…

  • Itinai.com it company office background blured photography by 392d7806 596c 4c64 a1ae 56d85025c3f2 1

    Аудио-SDS: Новый Подход к Синтезу Звука с Использованием ИИ

    Понимание Audio-SDS: Новый подход к синтезу аудио Введение в модели диффузии аудио Модели диффузии аудио значительно продвинулись в создании качественной речи, музыки и звуковых эффектов. Однако их основная сила заключается в генерации образцов,…

  • Itinai.com it company office background blured photography by 342dc52c d1e8 48a5 a450 02825b0d4c2b 0

    Эффективный размер состояния: новая метрика для оптимизации памяти в последовательных моделях

    Практические бизнес-решения с использованием Effective State-Size (ESS) Использование метрики Effective State-Size (ESS) в последовательных моделях может значительно улучшить производительность бизнеса и повысить эффективность работы. Вот шаги, которые помогут внедрить эту метрику в вашу…

  • Itinai.com it company office background blured photography by b78d385e b261 4424 829c 8c380ea5040f 2

    Запуск GTE-ModernColBERT-v1: Продвинутый Семантический Поиск для Длинных Документов

    Практические бизнес-решения Для компаний, стремящихся внедрить решения на основе ИИ, рассмотрите следующие шаги: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. Это может включать в себя обработку запросов клиентов,…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 3

    Ускорение аннотирования активного обучения с Adala и Google Gemini

    Использование ИИ для классификации медицинских симптомов Введение Компании могут использовать фреймворк Adala и Google Gemini для создания эффективного процесса активного обучения, который поможет в классификации медицинских симптомов. Это улучшит процессы аннотирования данных и…

  • Itinai.com it company office background blured chaos 50 v b3314315 0308 4954 a141 47b85163297e 2

    PrimitiveAnything: Инновационная AI-платформа для 3D-реконструкции форм

    Практические бизнес-решения с использованием PrimitiveAnything Преобразование 3D-форм через простые геометрические фигуры открывает новые возможности для повышения эффективности в различных секторах. Вот как можно внедрить эти технологии в бизнес. Шаг 1: Понимание абстракции форм…

  • Itinai.com it company office background blured photography by 342dc52c d1e8 48a5 a450 02825b0d4c2b 0

    Создание чат-бота с памятью на основе Claude и Mem0

    Практические бизнес-решения с использованием AI Внедрение AI с памятью, используя Claude и Mem0, может значительно улучшить взаимодействие с клиентами и повысить эффективность бизнеса. Вот как это можно реализовать: 1. Установка окружения Установите необходимые…

  • Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 3

    Оптимизация разреженных языковых моделей для повышения бизнес-эффективности

    Оптимизация разреженных языковых моделей для бизнес-эффективности Введение в разреженные языковые модели Разреженные большие языковые модели (LLM), особенно те, которые построены на основе структуры Mixture of Experts (MoE), становятся все более популярными в области…

  • Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 1

    ZeroSearch: Революционное решение для языковых моделей без реального поиска

    Улучшение языковых моделей с помощью ZeroSearch Введение Языковые модели (LLM) становятся все более важными в различных областях, таких как кодирование и автоматизированные ассистенты. Однако они часто обучаются на статических наборах данных, что приводит…

  • Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 0

    ARTIST: Новый Подход к Интеграции ИИ в Бизнесе

    Введение в LLM Большие языковые модели (LLM) значительно продвинулись в выполнении сложных задач рассуждения. Инновации в архитектуре моделей и методах обучения, таких как обучение с подкреплением (RL), сыграли ключевую роль в этом прогрессе.…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 3

    Дерево исследований: Открытая платформа для автоматизации исследований от ByteDance

    Введение в DeerFlow ByteDance запустила DeerFlow — открытое решение, которое улучшает сложные исследовательские процессы, интегрируя большие языковые модели (LLMs) со специализированными инструментами. DeerFlow автоматизирует задачи, от поиска информации до генерации мультимедийного контента, создавая…

  • Itinai.com it company office background blured photography by c2deb05c 8496 4a4d 8cab 2bb3d57fc0f0 0

    Оптимизация корпоративного ИИ с помощью xGen-small от Salesforce

    Оптимизация ИИ для бизнеса: xGen-small от Salesforce Введение В современном бизнесе эффективная обработка языка становится ключевой, так как компании все больше полагаются на синтез информации из различных источников. Однако традиционные подходы к языковым…

  • Itinai.com it company office background blured photography by c2deb05c 8496 4a4d 8cab 2bb3d57fc0f0 2

    Протоколы Интероперабельности для Автономных Систем: Решения для Бизнеса

    Улучшение совместимости ИИ для бизнес-решений Введение С увеличением внедрения автономных систем, работающих на основе больших языковых моделей (LLM), возникла важная задача: эффективное взаимодействие между этими системами. Для решения этой проблемы предлагается четыре новых…