Введение в Android Agent Arena (A3)
Развитие больших языковых моделей (LLMs) значительно продвинуло искусственный интеллект (ИИ) в разных сферах. Одним из таких направлений являются мобильные графические интерфейсы (GUI) агентов, которые могут выполнять задачи автономно на смартфонах. Однако оценка этих агентов имеет свои трудности. Текущие наборы данных и критерии оценки часто используют статические кадры интерфейсов, что не отражает динамичную природу реальных мобильных задач. Это создает разрыв между тестируемыми способностями и реальной производительностью. Поэтому нужна более комплексная оценка.
Решение: Android Agent Arena (A3)
Команда исследователей из CUHK, vivo AI Lab и Шанхайского университета Цзяотун разработала платформу Android Agent Arena (A3) для улучшения оценки мобильных GUI агентов. A3 предлагает динамичную среду для оценки с заданиями, которые отражают реальные сценарии. Платформа включает 21 популярное стороннее приложение и 201 задачу, от получения информации до выполнения многопроцессных операций. A3 также использует автоматизированную систему оценки на базе LLM, что сокращает необходимость в ручном вмешательстве и экспертизе программирования.
Ключевые особенности и преимущества A3
A3 основана на фреймворке Appium, что облегчает взаимодействие между GUI агентами и Android-устройствами. Платформа поддерживает широкий спектр действий, что обеспечивает совместимость с агентами, обученными на различных данных. Задания делятся на три типа: операционные, однокадровые и многокадровые, с тремя уровнями сложности. Эта разнообразие позволяет полноценно оценивать способности агента, от навигации до сложного принятия решений.
Механизм оценки A3
Механизм оценки платформы включает специализированные функции и процесс оценки на базе LLM. Специальные функции используют заранее определенные критерии для измерения производительности, а оценка с помощью LLM применяет модели, такие как GPT-4o и Gemini, для автономной оценки. Это комплексное подход обеспечивает точные результаты и масштабируемость для большего количества задач.
Результаты первоначальных тестов
Исследователи протестировали различных агентов на A3 и получили следующие данные:
- Проблемы с динамическими оценками: Агенты хорошо работали в статических оценках, но сталкивались с трудностями в динамической среде A3.
- Роль LLM в оценке: Оценка на основе LLM достигла 80–84% точности, хотя сложные задачи иногда требовали человеческого надзора.
- Общие ошибки: Наблюдались ошибки, такие как неправильные координаты клика и проблемы с самокоррекцией.
Заключение
Android Agent Arena (A3) представляет собой ценную платформу для оценки мобильных GUI агентов. Платформа преодолевает многие ограничения существующих benchmarks, предлагая разнообразный набор задач и автоматизированные системы оценки. A3 создает прочную основу для будущих инноваций в области оценки мобильных агентов.
Как ИИ может изменить ваши процессы
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, проанализируйте, как ИИ может изменить вашу работу. Определите, где можно применять автоматизацию и как ваши клиенты могут извлечь выгоду из ИИ.
Выберите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ. Начните с малого проекта, анализируйте результаты и постепенно расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам.
Попробуйте ИИ-ассистента в продажах, который помогает отвечать на вопросы клиентов и снижает нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.