Neural Magic представляет полностью квантованную версию FP8 модели Meta’s Llama 3.1 405B: FP8 Dynamic Quantization и FP8 Static Quantization
Недавно Neural Magic объявила о значительном прорыве в сжатии моделей искусственного интеллекта, представив полностью квантованную версию FP8 модели Meta’s Llama 3.1 405B. Это достижение является вехой в области искусственного интеллекта, позволяя огромной модели с 405 миллиардами параметров без проблем помещаться на любой 8xH100 или 8xA100 системе без распространенных ошибок нехватки памяти (OOM), которые обычно возникают с оригинальными версиями FP8 и FP16. Новая модель решает ограничения памяти и увеличивает скорость вывода более чем в 2 раза, используя более быструю память и вычислительные возможности и устраняя необходимость в откладывании на ЦП или распределении по нескольким узлам.
Квантование и оптимизация
Модель достигает замечательной эффективности благодаря квантованию весов и активаций до типа данных FP8. Этот процесс уменьшает количество битов на параметр с 16 до 8, уменьшая размер диска и требования к памяти GPU. Следовательно, модель может быть загружена и оценена на одном узле из 8xH100 GPU, вместо необходимости в нескольких узлах.
Развертывание и оценка
Квантованная модель Neural Magic может быть эффективно развернута с использованием бэкенда vLLM. Процесс развертывания включает использование библиотек `vllm` и `transformers` на Python, как показано в предоставленных фрагментах кода. Пример демонстрирует интеграцию модели с vLLM, показывая легкость генерации текста с оптимизированной моделью.
Воспроизводимость и точность
Neural Magic предоставляет подробные команды для воспроизведения результатов оценки на различных бенчмарках. Эти команды иллюстрируют надежность квантованной модели, поддерживающей высокую точность в различных задачах и настройках с небольшим количеством обучающих примеров.
Заключение
Релиз полностью квантованной версии FP8 модели Meta’s Llama 3.1 405B Neural Magic открывает новые возможности для эффективного и масштабируемого применения искусственного интеллекта. Успех этого усилия по квантованию, с минимальной потерей точности, подчеркивает потенциал для дальнейших инноваций в этой области, делая мощные модели искусственного интеллекта более доступными и практичными для различных пользователей.