AMD выпустила AMD-135M: первую небольшую серию языковых моделей, обученных с нуля на ускорителях AMD Instinct™ MI250.

 AMD Releases AMD-135M: AMD’s First Small Language Model Series Trained from Scratch on AMD Instinct™ MI250 Accelerators Utilizing 670B Tokens 


Новая модель языка AMD-135M: практические решения и ценность

Технические характеристики и преимущества

Модель AMD-135M основана на архитектуре модели LLaMA2 с 135 миллионами параметров, оптимизирована для работы на графических процессорах AMD, таких как MI250. Она поддерживает текстовую генерацию и понимание языка, обладает высокой эффективностью и интегрирована с библиотекой Hugging Face Transformers.

Ключевые особенности AMD-135M

  • Размер параметров: 135 миллионов параметров для эффективной обработки и генерации текста.
  • Количество слоев: 12 слоев с 12 внимательными головами для глубокого анализа и контекстного понимания.
  • Скрытый размер: 768 для обработки различных задач языкового моделирования.
  • Тип внимания: Multi-Head Attention для одновременного фокусирования на различных аспектах входных данных.
  • Размер окна контекста: 2048 для эффективной обработки больших последовательностей входных данных.

Применение и использование

Модель AMD-135M легко развертывается через библиотеку Hugging Face Transformers. Она подходит для разработчиков, желающих внедрить языковые возможности в свои приложения. Модель совместима с режимом спекулятивного декодирования для задач генерации кода, что делает ее полезной для разработчиков, работающих над текстовой генерацией, связанной с программированием.

Оценка производительности

Производительность AMD-135M оценивалась на различных бенчмарках NLP, таких как SciQ, WinoGrande и PIQA. Результаты показывают, что модель конкурентоспособна и обладает сильной производительностью, что делает ее надежной для исследований и коммерческих приложений в обработке естественного языка.

Заключение

Выпуск модели AMD-135M подчеркивает приверженность AMD к развитию технологий ИИ и предоставлению высокопроизводительных моделей для исследовательского сообщества. Ее надежная архитектура и продвинутые методы обучения делают AMD-135M серьезным конкурентом в быстро развивающемся мире моделей ИИ.


Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект