Модель ChartGemma: обученная на данных из разнообразных реальных изображений диаграмм

 ChartGemma: A Multimodal Model Instruction-Tuned on Data Generated Directly from a Diverse Range of Real-World Chart Images

“`html

ChartGemma: Мульти몴одель, настроенная на инструкции, созданные непосредственно на основе разнообразных изображений реальных графиков

Графики являются важным инструментом в различных областях, но текущие модели для их понимания имеют ограничения. Они часто полагаются на таблицы данных, а не на визуальные шаблоны, и используют слабо согласованные модели визуализации и языка, что ограничивает их эффективность при работе с сложными графиками. Хотя языковые модели, дополненные визуальным восприятием, хорошо справляются с общими задачами, им требуется помощь в анализе специализированных графиков. Исследователи пытались настраивать эти модели для лучшего понимания графиков, но проблемы с качеством данных и согласованием моделей по-прежнему существуют. Нам нужен простой, улучшенный подход для создания надежной модели основы для эффективного понимания и рассуждения о графиках в разнообразных реальных сценариях.

Практические решения и ценность

Исследователи из Университета Йорка, MILA – Институт искусственного интеллекта Квебека, Исследовательской группы Salesforce и Университета Наньянг разработали ChartGemma, продвинутую модель понимания и рассуждения о графиках. В отличие от существующих моделей, ChartGemma обучается на данных, сгенерированных непосредственно из изображений графиков, захватывая детальную визуальную информацию. Построенная на основе бэкбона PaliGemma, она является более компактной и эффективной по сравнению с другими моделями. ChartGemma достигает передовых результатов в суммировании графиков, ответах на вопросы и проверке фактов по пяти бенчмаркам. Качественные исследования показывают, что она генерирует реалистичные и точные сводки, что делает ее высокоэффективной для анализа реальных графиков.

Обучение представления графиков эволюционировало от моделей, настраиваемых на язык или визуально-языковые основы, к предварительно обученным моделям с конкретными целями для графиков. Настройка инструкций предварительно обученных визуально-языковых моделей (VLM) исследовалась для улучшения применимости графиков, но эти методы полагаются на базовые таблицы данных и слабо согласованные VLM. Бенчмарки для моделирования графиков варьируются от ответов на вопросы до задач, таких как генерация объяснений и суммирование. Настройка инструкций обобщила языковые модели по функциям и теперь является стандартной для мультимодальных VLM. Однако доменно-специфическая настройка инструкций для графиков с использованием таблиц данных не улавливает сложность реальных графиков, что ограничивает эффективность модели.

ChartGemma использует архитектуру PaliGemma, включающую в себя визионный энкодер SigLIP и языковую модель Gemma-2B. Визионный энкодер обрабатывает изображения размером 448×448 пикселей, преобразуя их в визуальные токены, отображаемые в пространство встраивания языковой модели. Затем эти токены комбинируются с встраиваниями текста и обрабатываются моделью Gemma-2B, которая использует полное внимание для входных токенов и причинное маскирование для выходных токенов для улучшения контекстного понимания. В отличие от существующих мультимодальных моделей графиков, требующих двухэтапного подхода к обучению, ChartGemma использует одноэтапный метод, непосредственно настраивая данные для настройки инструкций. Это облегчается предварительным обучением PaliGemma на разнообразных парах изображений и текста, что позволяет лучше адаптироваться и обобщаться.

ChartGemma сравнивается с различными открытыми моделями для работы с графиками, VLM, настраиваемыми на данные графиков, и передовыми мультимодальными LLM. Она оценивается по пяти бенчмаркам, оценивающим представление и рассуждение о графиках: ChartQA, ChartFC, ChartCheck, OpenCQA и Chart2Text, а также по ручно составленному набору из 100 невидимых графиков. Метрики производительности включают расслабленную точность, точность и информативность, оцененную GPT-4, и фактическую правильность. ChartGemma превосходит другие модели в большинстве задач, демонстрируя превосходное обобщение, особенно в понимании реалистичных инструкций и сложных графиков, несмотря на ее относительно небольшой размер.

ChartGemma, мультимодель, настроенная на инструкции, созданные на основе разнообразных изображений реальных графиков с использованием продвинутой архитектуры бэкбона, решает ключевые недостатки текущих моделей. В отличие от существующих методов, генерирующих данные настройки инструкций из базовых таблиц и использующих слабо согласованные бэкбоны, ChartGemma использует фактические изображения графиков, улучшая адаптируемость и обобщаемость. Этот подход значительно улучшает производительность, производя более реалистичные, информативные и фактически правильные результаты с меньшим количеством параметров. Будущая работа включает создание более разнообразного набора данных для настройки по инструкциям и предложение обобщенного бенчмарка для оценки сложных визуальных элементов в графиках с соответствующими метриками.

Посмотрите статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу в SubReddit ML с более чем 46 тысячами подписчиков.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/flycodetelegram

Попробуйте ИИ ассистент в продажах https://flycode.ru/aisales/. Этот ИИ ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Современные решения для оценки позы человека в бизнесе

    Бизнес-решения: Продвинутая оценка позы человека Введение в оценку позы человека Оценка позы человека — это инновационная технология, которая преобразует визуальную информацию в практические данные о движении человека. Используя такие модели, как MediaPipe, компании…

  • RWKV-7: Эффективное Моделирование Последовательностей для Бизнеса

    Введение в RWKV-7 Модель RWKV-7 представляет собой значительное достижение в области моделирования последовательностей благодаря инновационной архитектуре рекуррентной нейронной сети (RNN). Это более эффективная альтернатива традиционным авторегрессионным трансформерам, особенно для задач, требующих обработки длинных…

  • Qwen2.5-VL-32B-Instruct: Прорыв в моделях визуального языка

    Практические бизнес-решения с использованием Qwen2.5-VL-32B-Instruct Модель Qwen2.5-VL-32B-Instruct предлагает множество возможностей для улучшения бизнес-процессов и реальной жизни. Вот несколько шагов для ее внедрения: 1. Определите возможности автоматизации Анализируйте текущие процессы, чтобы найти задачи, где…

  • Извлечение Структурированных Данных с Помощью ИИ

    Практические бизнес-решения на основе извлечения структурированных данных с помощью ИИ Введение Использование ИИ для извлечения структурированных данных может значительно улучшить бизнес-процессы и повысить эффективность работы. Данная инструкция поможет вам внедрить ИИ-технологии, такие как…

  • Космос-Reason1: Новые горизонты в физическом ИИ

    Введение в Cosmos-Reason1: Прорыв в физическом ИИ Недавние исследования ИИ от NVIDIA представляют Cosmos-Reason1 — мультимодальную модель, предназначенную для улучшения способности ИИ рассуждать в физических средах. Это достижение критически важно для таких приложений,…

  • TokenSet: Революция в семантически осознанном визуальном представлении

    Введение TokenSet представляет собой инновационный подход к визуальной генерации, который может значительно улучшить бизнес-процессы. Этот фреймворк помогает оптимально представлять изображения, учитывая семантическую сложность различных областей. Давайте рассмотрим, как его использование может повысить бизнес-результаты…

  • Лира: Эффективная Архитектура для Моделирования Биологических Последовательностей

    Введение Lyra – это новая архитектура, которая предлагает эффективный подход к моделированию биологических последовательностей, позволяя улучшить бизнес-процессы в области биотехнологий и медицины. Проблемы в текущих моделях Существующие модели требуют значительных вычислительных ресурсов и…

  • СуперBPE: Новые Горизонты Токенизации для Языковых Моделей

    Введение в проблемы токенизации Языковые модели сталкиваются с серьезными проблемами при обработке текстовых данных из-за ограничений традиционных методов токенизации. Текущие токенизаторы делят текст на токены словарного запаса, которые не могут пересекаться с пробелами,…

  • TXAGENT: Искусственный интеллект для точной медицины и рекомендаций по лечению

    Введение в TXAGENT: Революция в прецизионной терапии с помощью ИИ Прецизионная терапия становится все более важной в здравоохранении, так как она настраивает лечение в соответствии с индивидуальными профилями пациентов. Это позволяет оптимизировать результаты…

  • TULIP: Новый подход к обучению для улучшения понимания визуальных и языковых данных

    TULIP: Новая Эра в Понимании Языка и Визуальных Изображений Введение в Контрастное Обучение Недавние достижения в искусственном интеллекте значительно улучшили связь между визуальным контентом и языком. Модели контрастного обучения, связывающие изображения и текст…

  • Революция в локализации кода: решения на основе графов от LocAgent

    Преобразование обслуживания программного обеспечения с помощью LocAgent Введение Обслуживание программного обеспечения является важной частью жизненного цикла разработки, где разработчики регулярно исправляют ошибки, добавляют новые функции и улучшают производительность. Ключевым аспектом этого процесса является…

  • LocAgent: Революция в локализации кода с помощью графового ИИ для обслуживания ПО

    Улучшение обслуживания программного обеспечения с помощью ИИ: случай LocAgent Введение в обслуживание программного обеспечения Обслуживание программного обеспечения — это важный этап в жизненном цикле разработки программного обеспечения. На этом этапе разработчики возвращаются к…

  • Инновации в обработке языка с помощью ИИ: новые возможности для бизнеса

    Преобразование обработки языка с помощью ИИ Понимание проблем обработки языка Обработка языка – это сложная задача, требующая учета многомерности и контекста. Исследования в области психолингвистики сосредоточены на определении символических характеристик различных языковых областей.…

  • Надежный ИИ для Обслуживания Клиентов: Решения и Принципы

    Улучшение Надежности ИИ в Обслуживании Клиентов Проблема: Непостоянная Производительность ИИ в Обслуживании Клиентов Большие языковые модели (LLMs) показывают многообещающие результаты в роли обслуживания клиентов, но их надежность как независимых агентов вызывает серьезные опасения.…

  • Создание разговорного исследовательского помощника с использованием технологии RAG

    Создание Разговорного Исследовательского Ассистента Введение Технология Retrieval-Augmented Generation (RAG) улучшает традиционные языковые модели, интегрируя системы поиска информации. Это позволяет создавать разговорных исследовательских ассистентов, которые точно отвечают на запросы, основанные на конкретных базах знаний.…

  • Беспристрастное обучение с подкреплением для улучшения математического мышления в больших языковых моделях

    Практические бизнес-решения Организации, стремящиеся использовать ИИ, могут реализовать следующие стратегии: 1. Определите возможности автоматизации Изучите процессы, которые можно автоматизировать для повышения эффективности и снижения затрат. Это может включать обработку данных, ответы на часто…

  • Fin-R1: Прорыв в финансовом ИИ

    Введение Искусственный интеллект (ИИ) в финансовом секторе продолжает развиваться, предлагая новые решения для улучшения бизнес-процессов. Система Fin-R1, специализированная модель ИИ, способна решить многие проблемы, связанные с финансовым анализом и принятием решений. Проблемы в…

  • SWEET-RL: Прорыв в обучении многоходовых языковых агентов

    Практические бизнес-решения с использованием SWEET-RL Введение в большие языковые модели (LLMs) Большие языковые модели (LLMs) становятся мощными автономными агентами, способными выполнять сложные задачи. Их применение в бизнесе может значительно повысить эффективность процессов. Решение…