Большие языковые модели для снижения задержки: новое семейство моделей, специализированных на методе декодирования Якоби.

 Consistency Large Language Models (CLLMs): A New Family of LLMs Specialized for the Jacobi Decoding Method for Latency Reduction

«`html

Consistency Large Language Models (CLLMs): Новое семейство LLM, специализированное для метода декодирования Якоби для снижения задержки

Большие языковые модели (LLM), включая GPT-4, LLaMA и PaLM, выталкивают границы искусственного интеллекта. Задержка вывода LLM играет важную роль из-за интеграции LLM в различные приложения, обеспечивая положительный опыт пользователя и высокое качество обслуживания. Однако служба LLM работает в рамках AR-парадигмы, генерируя по одному токену за раз, потому что механизм внимания полагается на предыдущие состояния токенов для генерации следующего токена. Чтобы создать более длинный ответ, выполняется прямой проход, используя LLM, эквивалентный количеству сгенерированных токенов, что приводит к высокой задержке.

Эффективный метод вывода LLM

Эффективный метод вывода LLM разделен на два потока: метод, требующий дополнительной тренировки, и метод, не требующий ее. Исследователи изучили этот метод из-за высокой стоимости вывода AR для LLM, в основном сосредоточившись на увеличении процесса декодирования AR. Еще один существующий метод — это Дистилляция LLM, где используется техника дистилляции знаний (KD) для создания маленьких моделей и замены функциональности более крупных. Однако традиционные методы KD неэффективны для LLM. Поэтому KD используется для авторегрессивных LLM для минимизации обратного KL-расхождения между студенческими и учительскими моделями через декодирование, управляемое студентом.

Consistency Large Language Models (CLLMs)

Исследователи из университета Шанхая Джиао и университета Калифорнии предложили CLLMs, новое семейство LLM, специализированное для метода декодирования Якоби для снижения задержки. CLLM был сравнен с традиционными методами, такими как спекулятивное декодирование и Медуза, для настройки вспомогательных компонентов модели и не использовал дополнительную память для этой задачи, в отличие от других. Когда CLLM обучается на ∼ 1M токенов для LLaMA-7B, он становится в 3,4 раза быстрее на наборе данных Spider, что показывает, что стоимость настройки для этого метода умеренная. Два основных фактора для ускорения — быстрое декодирование и стационарные токены.

В быстром декодировании правильные предсказания делаются в один проход для нескольких последовательных токенов, тогда как стационарные токены показывают правильное предсказание без изменений через последующие итерации, несмотря на то, что они предшествуют неточным токенам. В LLM и CLLM, когда сравниваются количество быстрых и стационарных токенов на всех четырех наборах данных (в Таблице 3), улучшение количества токенов составляет от 2,0x до 6,8x. Также для обоих количеств токенов такое улучшение в наборах данных, специфичных для домена, лучше, чем в наборах данных общего профиля на MT-bench. Это помогает выделить коллокации и простые синтаксические структуры, такие как пробелы, токены новой строки и повторяющиеся специальные символы в специализированных областях, таких как программирование.

Исследователи провели эксперименты для оценки производительности и ускорения вывода CLLM на нескольких задачах, таких как сравнение базовых уровней (SOTA) на трех специфических для домена задачах и задачах общего профиля на MT-bench. CLLM показывает выдающуюся производительность на различных бенчмарках, например, он может достичь ускорения в 2,4× до 3,4× с использованием декодирования Якоби с практически никакой потерей точности на специфических для домена бенчмарках, таких как GSM8K, CodeSearchNet Python и Spider. CLLM может достичь ускорения в 2,4× на ShareGPT с производительностью SOTA, с оценкой 6,4 на общедоступном бенчмарке MT-bench.

Заключение

Исследователи представили CLLM, новое семейство LLM, которое отличается эффективным параллельным декодированием и разработано таким образом, что может улучшить эффективность декодирования Якоби. Дополнительные архитектурные решения или управление двумя различными моделями в одной системе сложны, и сложность снижается с помощью CLLM, потому что этот метод прямо адаптирован из целевой предварительно обученной LLM. Кроме того, количество быстрых и стационарных токенов сравниваются на четырех наборах данных, показывая улучшение от 2,0x до 6,8x в LLM и CLLM.

Посмотрите статью и проект. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу Telegram, каналу Discord и группе LinkedIn.

Если вам понравилась наша работа, вам понравится наш информационный бюллетень.

Не забудьте присоединиться к нашему 42k+ ML SubReddit

Оригинал статьи опубликован на сайте MarkTechPost.

«`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Itinai.com it company office background blured photography by 392d7806 596c 4c64 a1ae 56d85025c3f2 1

    Переосмысляем токсичные данные в обучении LLM для повышения управляемости и детоксикации

    Практические бизнес-решения для улучшения языковых моделей Эффективность больших языковых моделей (LLMs) зависит от качества их обучающих данных. Удаление токсичных данных может снизить количество вредного контента, но важно найти баланс между безопасностью и производительностью…

  • Itinai.com it company office background blured photography by 93e48de1 e0a4 4327 bf1a 5249ee257f75 2

    Агентный ИИ: Стратегия для Автономных Систем

    Agentic AI: Преобразование бизнес-операций Введение в Agentic AI Agentic AI представляет собой новую эволюцию в автоматизации бизнеса, позволяя системам принимать автономные решения и взаимодействовать с контекстом. Это меняет подход организаций к функционированию, переходя…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 3

    Улучшение использования инструментов ИИ в бизнесе с помощью обучения с подкреплением

    Практические бизнес-решения для улучшения больших языковых моделей Интеграция внешних инструментов с большими языковыми моделями (LLMs) становится все более популярной в сфере ИИ. Это открывает новые возможности для бизнеса. Вот как можно улучшить бизнес-процессы…

  • Itinai.com it company office background blured photography by c2deb05c 8496 4a4d 8cab 2bb3d57fc0f0 1

    Развертывание MCP-сервера на базе Firecrawl для бизнес-приложений

    Внедрение полностью интегрированного сервера MCP на базе Firecrawl Данное руководство поможет вам настроить полностью функциональный сервер Model Context Protocol (MCP) с использованием Smithery для конфигурации и VeryaX для оркестрации в реальном времени. Следуя…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 0

    Внедрение LLM-агента с доступом к инструментам с использованием MCP-Use

    Практические бизнес-решения с использованием LLM-агента Внедрение LLM-агента с доступом к инструментам через MCP-Use может значительно улучшить бизнес-процессы и повседневную жизнь. Вот как это может помочь: Улучшение взаимодействия с клиентами Создание чат-бота позволяет автоматизировать…

  • Itinai.com it company office background blured photography by 0b545732 d29f 4839 a448 751a77ba1563 2

    Улучшение ИИ: Объединение Размышлений и Проверки с Помощью RLV

    Практические бизнес-решения для улучшения работы с ИИ Понимание обучения с подкреплением в языковых моделях Большие языковые модели (LLM) значительно улучшили свои способности к рассуждению благодаря методу обучения с подкреплением (RL). Этот подход вознаграждает…

  • Itinai.com it company office background blured photography by 93e48de1 e0a4 4327 bf1a 5249ee257f75 0

    Запуск HealthBench: Новый стандарт оценки ИИ в здравоохранении

    Введение в HealthBench HealthBench — это опенсорсная платформа для оценки производительности ИИ в здравоохранении, разработанная OpenAI. Она позволяет улучшить взаимодействие между ИИ и медицинскими работниками, обеспечивая более точные и безопасные результаты. Проблемы в…

  • Itinai.com it company office background blured photography by c2deb05c 8496 4a4d 8cab 2bb3d57fc0f0 1

    Продвижение многомодального ИИ: практические бизнес-решения

    Понимание многомодального ИИ Искусственный интеллект (ИИ) значительно расширился за пределы традиционных систем обработки языка. Сегодня существуют модели, которые могут обрабатывать различные типы входных данных, включая текст, изображения, аудио и видео. Эта область, известная…

  • Itinai.com it company office background blured photography by d266ecb7 1141 4fd8 a45e d7242fbf1e9e 0

    Создайте и опубликуйте свой AI-блог с Lovable.dev и интеграцией GitHub

    Практические бизнес-решения с использованием искусственного интеллекта Как это улучшает бизнес и реальную жизнь Создание блога с помощью Lovable.dev позволяет компаниям быстро и эффективно запустить онлайн-присутствие. Это улучшает видимость бренда, привлекает клиентов и увеличивает…

  • Itinai.com it company office background blured photography by 41bad236 c948 453e 803a 7165a764e0bf 1

    StreamBridge: Преобразование Видео-LLMs для Реального Времени

    Бизнес-Трансформация с помощью Искусственного Интеллекта Понимание Ограничений Video-LLMs Video-LLMs предназначены для анализа записанных видео. Однако, такие отрасли, как робототехника и автономное вождение, требуют понимания видео в реальном времени. Это создает значительные трудности, так…

  • Itinai.com it company office background blured photography by b78d385e b261 4424 829c 8c380ea5040f 1

    Запуск INTELLECT-2: Децентрализованная модель рассуждений с 32 миллиардами параметров

    Проблемы централизованного обучения ИИ Традиционные методы централизованного обучения сталкиваются с ограничениями из-за высокой стоимости вычислительных кластеров и нехватки ресурсов. Это затрудняет эксперименты и сотрудничество в исследованиях. Децентрализованные решения Переход к децентрализованным методам обучения…

  • Itinai.com it company office background blured photography by 392d7806 596c 4c64 a1ae 56d85025c3f2 1

    AG-UI: Революция в Реальном Времени для Взаимодействия AI и Front-End Приложений

    AG-UI: Упрощение Взаимодействия с ИИ в Реальном Времени Современные достижения в области искусственного интеллекта значительно улучшили автоматизацию задач, таких как суммирование, миграция данных и планирование. Однако, чтобы повысить эффективность бизнеса, необходимо внедрить решения,…

  • Itinai.com it company office background blured photography by 392d7806 596c 4c64 a1ae 56d85025c3f2 1

    Аудио-SDS: Новый Подход к Синтезу Звука с Использованием ИИ

    Понимание Audio-SDS: Новый подход к синтезу аудио Введение в модели диффузии аудио Модели диффузии аудио значительно продвинулись в создании качественной речи, музыки и звуковых эффектов. Однако их основная сила заключается в генерации образцов,…

  • Itinai.com it company office background blured photography by 342dc52c d1e8 48a5 a450 02825b0d4c2b 0

    Эффективный размер состояния: новая метрика для оптимизации памяти в последовательных моделях

    Практические бизнес-решения с использованием Effective State-Size (ESS) Использование метрики Effective State-Size (ESS) в последовательных моделях может значительно улучшить производительность бизнеса и повысить эффективность работы. Вот шаги, которые помогут внедрить эту метрику в вашу…

  • Itinai.com it company office background blured photography by b78d385e b261 4424 829c 8c380ea5040f 2

    Запуск GTE-ModernColBERT-v1: Продвинутый Семантический Поиск для Длинных Документов

    Практические бизнес-решения Для компаний, стремящихся внедрить решения на основе ИИ, рассмотрите следующие шаги: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. Это может включать в себя обработку запросов клиентов,…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 3

    Ускорение аннотирования активного обучения с Adala и Google Gemini

    Использование ИИ для классификации медицинских симптомов Введение Компании могут использовать фреймворк Adala и Google Gemini для создания эффективного процесса активного обучения, который поможет в классификации медицинских симптомов. Это улучшит процессы аннотирования данных и…

  • Itinai.com it company office background blured chaos 50 v b3314315 0308 4954 a141 47b85163297e 2

    PrimitiveAnything: Инновационная AI-платформа для 3D-реконструкции форм

    Практические бизнес-решения с использованием PrimitiveAnything Преобразование 3D-форм через простые геометрические фигуры открывает новые возможности для повышения эффективности в различных секторах. Вот как можно внедрить эти технологии в бизнес. Шаг 1: Понимание абстракции форм…

  • Itinai.com it company office background blured photography by 342dc52c d1e8 48a5 a450 02825b0d4c2b 0

    Создание чат-бота с памятью на основе Claude и Mem0

    Практические бизнес-решения с использованием AI Внедрение AI с памятью, используя Claude и Mem0, может значительно улучшить взаимодействие с клиентами и повысить эффективность бизнеса. Вот как это можно реализовать: 1. Установка окружения Установите необходимые…