Новый метод увеличения разреженности модели до 90% с помощью dReLU: ускорение вывода в 2-5 раз

 This AI Paper from China Proposes a Novel dReLU-based Sparsification Method that Increases Model Sparsity to 90% while Maintaining Performance, Achieving a 2-5× Speedup in Inference

“`html

Большие языковые модели (LLM) в области обработки естественного языка (NLP)

Большие языковые модели (LLM) сделали существенный прогресс в области обработки естественного языка (NLP). Путем увеличения количества параметров модели LLM показывают более высокую производительность в задачах, таких как генерация кода и ответы на вопросы. Однако большинство современных LLM, такие как Mistral, Gemma и Llama, являются плотными моделями, что означает, что во время вывода они используют каждый параметр. Несмотря на силу этой плотной архитектуры, требуется много вычислительной мощности, что затрудняет создание доступного и широко доступного ИИ.

Условные вычисления

Условные вычисления были изучены как решение для повышения эффективности. Путем включения только некоторых нейронов модели в ответ на вход, эта техника сокращает бесполезные вычисления. Условные вычисления могут быть реализованы с помощью двух основных методов. Первый метод – это стратегия Mixture-of-Experts (MoE). Предопределяя ограничения структуры модели перед обучением, такие как определение количества экспертов для активации для конкретного ввода, MoE вводит условные вычисления. Эта техника маршрутизации экспертов повышает эффективность путем выборочной активации конкретных компонентов модели без увеличения вычислительной сложности.

Новые методы активации

Второй метод использует функции активации, такие как внутренняя разреженность ReLU. Для не положительных входов ReLU интринсеки создает ноль, что приводит к множеству неактивных нейронов, не вносящих вклад в вычисления. Эта внутренняя разреженность может повысить эффективность вывода.

Новая функция активации dReLU

Команда исследователей из Китая предложила новую функцию активации dReLU, которая решает проблемы негативных активаций в компоненте GLU. Тесты на масштабных LLM, предварительно обученных с применением dReLU в дополнение к SwiGLU, показали, что модели с dReLU проявляют производительность на уровне моделей SwiGLU, при этом уровень разреженности достигает 90%. Команда улучшила процесс ReLUfication, собрав гетерогенные данные предварительного обучения из других источников, таких как код, веб-сайты и математические наборы данных.

Применение в практике

Применение этих методов к моделям Mistral-7B и Mixtral-47B подтвердило их эффективность. Результаты показали, что модели TurboSparse-Mixtral-47B и TurboSparse-Mistral-7B не только сравнимы с оригинальными версиями, но часто превосходят их. Объединение этих моделей с PowerInfer продемонстрировало среднее ускорение в задачах генерации в 2,83 раза, подтверждая эффективность предложенного подхода в увеличении производительности.

Основные выводы

Введена функция dReLU, которая повышает разреженность активации. Объявлено о выпуске моделей TurboSparse-Mistral7B и TurboSparse-Mixtral-47B, которые демонстрируют превосходную производительность по сравнению с их оригинальными плотными версиями. Оценка показала, что с помощью этих моделей можно достичь ускорения вывода от 2 до 5 раз. С помощью TurboSparse-Mixtral-47B можно выполнять до 10 токенов без необходимости использования GPU.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект