Знакомьтесь с Android Agent Arena (A3): Полная и автономная система онлайн-оценки для GUI-агентов.

 Meet Android Agent Arena (A3): A Comprehensive and Autonomous Online Evaluation System for GUI Agents

Введение в Android Agent Arena (A3)

Развитие больших языковых моделей (LLMs) значительно продвинуло искусственный интеллект (ИИ) в разных сферах. Одним из таких направлений являются мобильные графические интерфейсы (GUI) агентов, которые могут выполнять задачи автономно на смартфонах. Однако оценка этих агентов имеет свои трудности. Текущие наборы данных и критерии оценки часто используют статические кадры интерфейсов, что не отражает динамичную природу реальных мобильных задач. Это создает разрыв между тестируемыми способностями и реальной производительностью. Поэтому нужна более комплексная оценка.

Решение: Android Agent Arena (A3)

Команда исследователей из CUHK, vivo AI Lab и Шанхайского университета Цзяотун разработала платформу Android Agent Arena (A3) для улучшения оценки мобильных GUI агентов. A3 предлагает динамичную среду для оценки с заданиями, которые отражают реальные сценарии. Платформа включает 21 популярное стороннее приложение и 201 задачу, от получения информации до выполнения многопроцессных операций. A3 также использует автоматизированную систему оценки на базе LLM, что сокращает необходимость в ручном вмешательстве и экспертизе программирования.

Ключевые особенности и преимущества A3

A3 основана на фреймворке Appium, что облегчает взаимодействие между GUI агентами и Android-устройствами. Платформа поддерживает широкий спектр действий, что обеспечивает совместимость с агентами, обученными на различных данных. Задания делятся на три типа: операционные, однокадровые и многокадровые, с тремя уровнями сложности. Эта разнообразие позволяет полноценно оценивать способности агента, от навигации до сложного принятия решений.

Механизм оценки A3

Механизм оценки платформы включает специализированные функции и процесс оценки на базе LLM. Специальные функции используют заранее определенные критерии для измерения производительности, а оценка с помощью LLM применяет модели, такие как GPT-4o и Gemini, для автономной оценки. Это комплексное подход обеспечивает точные результаты и масштабируемость для большего количества задач.

Результаты первоначальных тестов

Исследователи протестировали различных агентов на A3 и получили следующие данные:

  • Проблемы с динамическими оценками: Агенты хорошо работали в статических оценках, но сталкивались с трудностями в динамической среде A3.
  • Роль LLM в оценке: Оценка на основе LLM достигла 80–84% точности, хотя сложные задачи иногда требовали человеческого надзора.
  • Общие ошибки: Наблюдались ошибки, такие как неправильные координаты клика и проблемы с самокоррекцией.

Заключение

Android Agent Arena (A3) представляет собой ценную платформу для оценки мобильных GUI агентов. Платформа преодолевает многие ограничения существующих benchmarks, предлагая разнообразный набор задач и автоматизированные системы оценки. A3 создает прочную основу для будущих инноваций в области оценки мобильных агентов.

Как ИИ может изменить ваши процессы

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, проанализируйте, как ИИ может изменить вашу работу. Определите, где можно применять автоматизацию и как ваши клиенты могут извлечь выгоду из ИИ.

Выберите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ. Начните с малого проекта, анализируйте результаты и постепенно расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам.

Попробуйте ИИ-ассистента в продажах, который помогает отвечать на вопросы клиентов и снижает нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект