Эффективный метод для заполнения длинного контекста в языковых моделях: MInference (Milliontokens Inference)

 MInference (Milliontokens Inference): A Training-Free Efficient Method for the Pre-Filling Stage of Long-Context LLMs Based on Dynamic Sparse Attention

“`html

Практические решения для улучшения производительности и эффективности долгих контекстуальных моделей языка

Метод MInference для ускорения обработки длинных последовательностей в моделях долгих контекстов

Метод MInference (Milliontokens Inference) был разработан исследователями из Microsoft Corporation и Университета Суррея для ускорения обработки длинных последовательностей в моделях долгих контекстов. Метод идентифицирует три различных образца внимания – A-shape, Vertical-Slash и Block-Sparse и оптимизирует разреженные вычисления для графических процессоров (GPU). Динамическое построение разреженных индексов для этих образцов в процессе вывода значительно снижает задержку, не меняя предварительное обучение или требуя доработки.

Эксперименты на различных моделях языка и бенчмарках показывают ускорение до 10 раз, сокращая этап предварительного заполнения с 30 минут до 3 минут на одном графическом процессоре A100 при сохранении точности.

Оптимизация разреженных вычислений и их применение

MInference использует динамическое разреженное внимание с конкретными пространственными образцами (A-shape, Vertical-Slash и Block-Sparse) для ускорения обработки длинных контекстов, снижая вычислительные затраты и поддерживая точность.

Метод также демонстрирует перспективы в мульти-модальных и кодировщик-декодировщик моделях языка, ускоряя этап предварительного заполнения и предоставляя значительное снижение задержки.

Практическая ценность MInference

Тестирование на бенчмарках, таких как InfiniteBench и RULER, показывает, что MInference поддерживает производительность длинных контекстов, обеспечивая ускорение до 10 раз и существенное снижение задержки на одном графическом процессоре A100 с 30 минут до 3 минут для последовательностей до 1 миллиона токенов.

Такие образцы также имеют потенциал для ускорения этапа предварительного заполнения в мульти-модальных и кодировщик-декодировщик моделях языка, что указывает на перспективные области применения приложений ускорения этапа предварительного заполнения.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект