Neural Magic выпустила полностью квантованную версию модели Meta’s Llama 3.1 405B: динамическая и статическая квантование FP8.

 Neural Magic Releases Fully Quantized FP8 Version of Meta’s Llama 3.1 405B Model: FP8 Dynamic Quantization and FP8 Static Quantization

Neural Magic представляет полностью квантованную версию FP8 модели Meta’s Llama 3.1 405B: FP8 Dynamic Quantization и FP8 Static Quantization

Недавно Neural Magic объявила о значительном прорыве в сжатии моделей искусственного интеллекта, представив полностью квантованную версию FP8 модели Meta’s Llama 3.1 405B. Это достижение является вехой в области искусственного интеллекта, позволяя огромной модели с 405 миллиардами параметров без проблем помещаться на любой 8xH100 или 8xA100 системе без распространенных ошибок нехватки памяти (OOM), которые обычно возникают с оригинальными версиями FP8 и FP16. Новая модель решает ограничения памяти и увеличивает скорость вывода более чем в 2 раза, используя более быструю память и вычислительные возможности и устраняя необходимость в откладывании на ЦП или распределении по нескольким узлам.

Квантование и оптимизация

Модель достигает замечательной эффективности благодаря квантованию весов и активаций до типа данных FP8. Этот процесс уменьшает количество битов на параметр с 16 до 8, уменьшая размер диска и требования к памяти GPU. Следовательно, модель может быть загружена и оценена на одном узле из 8xH100 GPU, вместо необходимости в нескольких узлах.

Развертывание и оценка

Квантованная модель Neural Magic может быть эффективно развернута с использованием бэкенда vLLM. Процесс развертывания включает использование библиотек `vllm` и `transformers` на Python, как показано в предоставленных фрагментах кода. Пример демонстрирует интеграцию модели с vLLM, показывая легкость генерации текста с оптимизированной моделью.

Воспроизводимость и точность

Neural Magic предоставляет подробные команды для воспроизведения результатов оценки на различных бенчмарках. Эти команды иллюстрируют надежность квантованной модели, поддерживающей высокую точность в различных задачах и настройках с небольшим количеством обучающих примеров.

Заключение

Релиз полностью квантованной версии FP8 модели Meta’s Llama 3.1 405B Neural Magic открывает новые возможности для эффективного и масштабируемого применения искусственного интеллекта. Успех этого усилия по квантованию, с минимальной потерей точности, подчеркивает потенциал для дальнейших инноваций в этой области, делая мощные модели искусственного интеллекта более доступными и практичными для различных пользователей.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект