“`html
Nvidia выпустила Llama-Minitron 3.1 4B: новая модель языка, созданная путем обрезки и дистилляции Llama 3.1 8B
Новая модель Llama-3.1-Minitron 4B, разработанная Nvidia, представляет собой сжатую и оптимизированную версию большой модели Llama-3.1 8B. Она сочетает в себе эффективность крупных моделей с меньшими моделями благодаря передовым техникам, таким как обрезка и дистилляция знаний.
Практические решения и ценность
Модель Llama-3.1-Minitron 4B продемонстрировала конкурентоспособную производительность по сравнению с крупными моделями с открытым исходным кодом. Она превосходит многие другие небольшие языковые модели в областях, таких как рассуждение, кодирование и математика.
Одним из главных преимуществ модели Llama-3.1-Minitron 4B является ее способность эффективно конкурировать при сравнительной экономии ресурсов. Она использует значительно меньше обучающих токенов по сравнению с обучением с нуля, что приводит к существенной экономии затрат на вычисления.
Nvidia также оптимизировала модель Llama-3.1-Minitron 4B для развертывания с использованием своего инструмента TensorRT-LLM, улучшающего ее производительность вывода. Например, пропускная способность модели в точности FP8 в различных случаях увеличилась в 2,7 раза по сравнению с оригинальной моделью Llama 3.1 8B.
В целом, релиз модели Llama-3.1-Minitron 4B от Nvidia является значительным шагом в развитии языковых моделей. Она обладает высокой производительностью и экономичностью, что делает ее очень полезной во многих задачах обработки естественного языка.
“`