Улучшение понимания документов с помощью DocOwl2: новая архитектура высокого разрешения сжатия

 Optimizing Document Understanding with DocOwl2: A Novel High-Resolution Compression Architecture

Оптимизация понимания документов с помощью DocOwl2: новая высокоразрешающая архитектура сжатия

Понимание многостраничных документов и видео с новостями – это обычная задача в повседневной жизни человека. Чтобы решить такие сценарии, многомодальные большие языковые модели должны быть оборудованы способностью понимать несколько изображений с обильной визуально-ориентированной текстовой информацией. Однако понимание изображений документов более сложно, чем естественных изображений, поскольку для распознавания всего текста требуется более детальное восприятие. Существующие подходы либо добавляют высокоразрешающий кодер, либо обрезают изображения высокого разрешения на низкоразрешенные подизображения, у обоих вариантов есть ограничения.

Компрессор высокого разрешения для эффективного ОРС без компьютерного зрения

Исследователи из Alibaba Group и Ренминского университета Китая предложили надежную архитектуру сжатия под названием High-resolution DocCompressor. Этот метод использует визуальные особенности глобального низкоразрешенного изображения в качестве руководства для сжатия (запроса), поскольку глобальная карта особенностей может эффективно захватывать общую информацию о макете документа.

Вместо привлечения всех высокоразрешающих особенностей, High-resolution DocCompressor собирает группу высокоразрешающих особенностей с идентичными относительными положениями в исходном изображении в качестве сжимаемых объектов для каждого запроса из глобальной карты особенностей. Такой подход, учитывающий макет, помогает лучше суммировать текстовую информацию в определенной области макета.

Компрессор высокого разрешения демонстрирует превосходную производительность и значительно низкую задержку первого токена по сравнению с другими многомодальными большими языковыми моделями, способными обрабатывать более 10 изображений на одном графическом процессоре A100-80G.

Заключение

Доклад представляет mPLUG-DocOwl2, многомодальную большую языковую модель, способную эффективно понимать многостраничные документы без использования OCR. Устойчивая архитектура сжатия High-resolution DocCompressor сжимает каждое изображение документа высокого разрешения всего до 324 токенов, используя кросс-внимание с глобальными визуальными особенностями в качестве руководства. На бенчмарках для одного изображения DocOwl2 превосходит существующие методы сжатия и соответствует состоянию искусства многомодальных больших языковых моделей, используя меньшее количество визуальных токенов. Он также достигает состояния искусства без OCR в задачах понимания многостраничных документов и текстовых видеороликов с значительно меньшей задержкой.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект