Исследование производительности различных инструментов для LLM: анализ производительности vLLM, LMDeploy, MLC-LLM, TensorRT-LLM и TGI.

 A Comprehensive Study by BentoML on Benchmarking LLM Inference Backends: Performance Analysis of vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI



Важность выбора подходящего бэкенда для обслуживания LLMs

В больших языковых моделях (LLMs) выбор правильного бэкенда для обслуживания LLMs имеет важное значение. Производительность и эффективность этих бэкендов напрямую влияют на опыт пользователя и операционные расходы.

Основные метрики

Для оценки производительности этих бэкендов в исследовании использовались две основные метрики:

  • Время до первого токена (TTFT): Это измеряет задержку от отправки запроса до генерации первого токена. Более низкое TTFT критически важно для приложений, требующих мгновенной обратной связи, таких как интерактивные чат-боты.
  • Скорость генерации токенов: Это оценивает, сколько токенов модель генерирует в секунду во время декодирования.

Результаты для Llama 3 8B и Llama 3 70B с 4-битной квантованием

Для модели Llama 3 8B были получены следующие результаты:

  • LMDeploy: Показала лучшую производительность декодирования и высокую скорость генерации токенов для 100 пользователей.
  • MLC-LLM: Достигла немного более низкой скорости генерации токенов, однако ее производительность ухудшилась после пяти минут бенчмаркинга.
  • vLLM: Хотя vLLM отличается в поддержании низкого TTFT, его скорость генерации токенов была менее оптимальной.

Для модели Llama 3 70B с 4-битной квантованием производительность варьировалась между бэкендами.

  • LMDeploy: Предоставила самую высокую скорость генерации токенов и поддерживала самое низкое TTFT для всех уровней конкурентности.
  • TensorRT-LLM: Показал сходные скорости генерации токенов, но имел значительное увеличение TTFT при достижении 100 одновременных пользователей.
  • vLLM: Наблюдалось постоянно низкое TTFT, но скорость генерации токенов отставала из-за отсутствия оптимизации для квантованных моделей.

Заключение

Исследование показывает, что LMDeploy обладает превосходной производительностью в TTFT и скорости генерации токенов, что делает его отличным выбором для сценариев с высокой нагрузкой. vLLM заметен своей способностью поддерживать низкую задержку, что критически важно для приложений, требующих быстрых времен ответа. В то время как MLC-LLM показывает потенциал, ему требуется дальнейшая оптимизация для эффективной работы под нагрузкой.

Эти выводы дают основу для разработчиков и предприятий, желающих развернуть LLMs, для принятия обоснованных решений относительно выбора подходящего бэкенда. Интеграция этих бэкендов с платформами, такими как BentoML и BentoCloud, дальше оптимизирует процесс развертывания, обеспечивая оптимальную производительность и масштабируемость.


Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект