Большие языковые модели для снижения задержки: новое семейство моделей, специализированных на методе декодирования Якоби.

 Consistency Large Language Models (CLLMs): A New Family of LLMs Specialized for the Jacobi Decoding Method for Latency Reduction

“`html

Consistency Large Language Models (CLLMs): Новое семейство LLM, специализированное для метода декодирования Якоби для снижения задержки

Большие языковые модели (LLM), включая GPT-4, LLaMA и PaLM, выталкивают границы искусственного интеллекта. Задержка вывода LLM играет важную роль из-за интеграции LLM в различные приложения, обеспечивая положительный опыт пользователя и высокое качество обслуживания. Однако служба LLM работает в рамках AR-парадигмы, генерируя по одному токену за раз, потому что механизм внимания полагается на предыдущие состояния токенов для генерации следующего токена. Чтобы создать более длинный ответ, выполняется прямой проход, используя LLM, эквивалентный количеству сгенерированных токенов, что приводит к высокой задержке.

Эффективный метод вывода LLM

Эффективный метод вывода LLM разделен на два потока: метод, требующий дополнительной тренировки, и метод, не требующий ее. Исследователи изучили этот метод из-за высокой стоимости вывода AR для LLM, в основном сосредоточившись на увеличении процесса декодирования AR. Еще один существующий метод – это Дистилляция LLM, где используется техника дистилляции знаний (KD) для создания маленьких моделей и замены функциональности более крупных. Однако традиционные методы KD неэффективны для LLM. Поэтому KD используется для авторегрессивных LLM для минимизации обратного KL-расхождения между студенческими и учительскими моделями через декодирование, управляемое студентом.

Consistency Large Language Models (CLLMs)

Исследователи из университета Шанхая Джиао и университета Калифорнии предложили CLLMs, новое семейство LLM, специализированное для метода декодирования Якоби для снижения задержки. CLLM был сравнен с традиционными методами, такими как спекулятивное декодирование и Медуза, для настройки вспомогательных компонентов модели и не использовал дополнительную память для этой задачи, в отличие от других. Когда CLLM обучается на ∼ 1M токенов для LLaMA-7B, он становится в 3,4 раза быстрее на наборе данных Spider, что показывает, что стоимость настройки для этого метода умеренная. Два основных фактора для ускорения – быстрое декодирование и стационарные токены.

В быстром декодировании правильные предсказания делаются в один проход для нескольких последовательных токенов, тогда как стационарные токены показывают правильное предсказание без изменений через последующие итерации, несмотря на то, что они предшествуют неточным токенам. В LLM и CLLM, когда сравниваются количество быстрых и стационарных токенов на всех четырех наборах данных (в Таблице 3), улучшение количества токенов составляет от 2,0x до 6,8x. Также для обоих количеств токенов такое улучшение в наборах данных, специфичных для домена, лучше, чем в наборах данных общего профиля на MT-bench. Это помогает выделить коллокации и простые синтаксические структуры, такие как пробелы, токены новой строки и повторяющиеся специальные символы в специализированных областях, таких как программирование.

Исследователи провели эксперименты для оценки производительности и ускорения вывода CLLM на нескольких задачах, таких как сравнение базовых уровней (SOTA) на трех специфических для домена задачах и задачах общего профиля на MT-bench. CLLM показывает выдающуюся производительность на различных бенчмарках, например, он может достичь ускорения в 2,4× до 3,4× с использованием декодирования Якоби с практически никакой потерей точности на специфических для домена бенчмарках, таких как GSM8K, CodeSearchNet Python и Spider. CLLM может достичь ускорения в 2,4× на ShareGPT с производительностью SOTA, с оценкой 6,4 на общедоступном бенчмарке MT-bench.

Заключение

Исследователи представили CLLM, новое семейство LLM, которое отличается эффективным параллельным декодированием и разработано таким образом, что может улучшить эффективность декодирования Якоби. Дополнительные архитектурные решения или управление двумя различными моделями в одной системе сложны, и сложность снижается с помощью CLLM, потому что этот метод прямо адаптирован из целевой предварительно обученной LLM. Кроме того, количество быстрых и стационарных токенов сравниваются на четырех наборах данных, показывая улучшение от 2,0x до 6,8x в LLM и CLLM.

Посмотрите статью и проект. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу Telegram, каналу Discord и группе LinkedIn.

Если вам понравилась наша работа, вам понравится наш информационный бюллетень.

Не забудьте присоединиться к нашему 42k+ ML SubReddit

Оригинал статьи опубликован на сайте MarkTechPost.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Модели вознаграждения в области зрения и языка: практические бизнес-решения

    Практические бизнес-решения на основе моделей вознаграждения с поддержкой процессов Понимание моделей вознаграждения с поддержкой процессов Модели вознаграждения с поддержкой процессов (PRMs) предлагают детализированную обратную связь по ответам моделей, что помогает бизнесу выбирать наиболее…

  • Запуск BingoGuard: Новый уровень модерации контента от Salesforce AI

    Обзор BingoGuard Salesforce AI представила BingoGuard, инновационную систему модерации контента, использующую большие языковые модели (LLMs). Эта система решает проблемы традиционной модерации, обеспечивая более точную классификацию контента. Ключевые особенности BingoGuard Гранулярная классификация: BingoGuard классифицирует…

  • Улучшение принятия решений в Гомоку с использованием ИИ и обучения с подкреплением

    Улучшение стратегического принятия решений с помощью ИИ в Гомоку Введение Искусственный интеллект (ИИ) может значительно улучшить бизнес-процессы, используя технологии, подобные большим языковым моделям (LLM). Эти модели способны анализировать данные и генерировать идеи, что…

  • PaperBench: Новый стандарт оценки ИИ в исследованиях машинного обучения

    Введение Быстрые достижения в области искусственного интеллекта (ИИ) подчеркивают необходимость эффективных методов оценки. Использование PaperBench может значительно улучшить способность вашей компании использовать ИИ для автоматизации исследовательских задач. Что такое PaperBench? PaperBench — это…

  • Снижение галлюцинаций в больших моделях визуально-языковых систем: практические бизнес-решения

    Снижение галлюцинаций в больших моделях визуального и языкового понимания Понимание проблемы галлюцинаций в LVLM Большие модели визуального и языкового понимания (LVLM) являются мощными инструментами, которые объединяют визуальные и текстовые данные для выполнения задач,…

  • Запуск передовой многомодальной модели встраивания для визуального извлечения документов

    Внедрение многомодальной модели Nomic Модель Nomic Embed Multimodal предлагает компании новые возможности для улучшения обработки документов. Она позволяет эффективно извлекать информацию как из текста, так и из изображений, что значительно упрощает рабочие процессы.…

  • Многоходовое Внимание: Революция в Понимании Языковых Моделей

    Введение в механизмы внимания в языковых моделях Языковые модели (LLMs) активно используют механизмы внимания для эффективного извлечения контекстной информации. Однако традиционные методы внимания ограничены однотокеновым вниманием, что может затруднять понимание сложных языковых зависимостей.…

  • Amazon Nova Act: Революция в автоматизации веб-задач

    Введение в Amazon Nova Act Amazon представил революционную модель ИИ под названием Nova Act, предназначенную для автоматизации различных веб-задач. Этот ИИ-агент может автоматизировать процессы, такие как заполнение форм, навигация по интерфейсу и управление…

  • Руководство для начинающих по терминалу и командной строке: основные команды и советы

    Практические бизнес-решения с использованием Terminal/Command Prompt Введение Terminal и Command Prompt – это мощные инструменты для взаимодействия с компьютерами, которые могут значительно повысить производительность и эффективность в бизнесе. Преимущества использования Terminal/Command Prompt Эффективная…

  • Гибридная система вознаграждений ByteDance: улучшение RLHF с помощью RTV и GenRM

    Введение в Гибридную Систему Наград в ИИ Недавнее исследование от ByteDance представляет значительное достижение в области искусственного интеллекта через гибридную систему наград. Эта система объединяет Проверяющие Задачи Размышления (RTV) и Генеративную Модель Наград…

  • Революционная платформа AI для интеграции рассуждений и поиска

    Введение в ReSearch: Прогрессивная AI-структура Обзор ReSearch ReSearch представляет собой продвинутую структуру, которая обучает большие языковые модели (LLM) комбинировать рассуждения с поиском с помощью обучения с подкреплением, устраняя необходимость в контролируемых данных для…

  • Использование Git и Git Bash: Руководство для бизнеса

    Бизнес-преобразование с помощью Git и искусственного интеллекта Введение Использование Git и Git Bash может значительно улучшить управление проектами. Эти инструменты позволяют командам отслеживать изменения кода и эффективно сотрудничать, что значительно повышает производительность бизнеса.…

  • Создание инструмента для анализа рентгеновских снимков с открытым исходным кодом

    Создание инструмента для оценки рентгеновских снимков с открытым исходным кодом Практические бизнес-решения Создание прототипа инструмента для оценки рентгеновских снимков может значительно улучшить процессы диагностики и повысить качество обслуживания клиентов в медицинских учреждениях. Использование…

  • Увеличение разнообразия креативного письма с помощью DPO и ORPO в ИИ моделях

    Улучшение креативного письма с помощью ИИ: Практические решения для бизнеса Понимание проблемы креативного письма в ИИ Креативное письмо требует разнообразия и воображения, что представляет собой уникальную задачу для систем искусственного интеллекта (ИИ). В…

  • Оценка юридических ответов на соответствие GDPR с помощью платформы Atla

    Оценка юридических ответов для соблюдения GDPR с помощью платформы Atla Обзор Данный гид описывает практический подход к оценке качества юридических ответов, сгенерированных языковыми моделями, с использованием платформы Atla и Python SDK. Наша цель…

  • VideoMind: Прорыв в понимании видео с помощью ИИ

    Видеоминд: Применение AI для понимания видео Видеоминд представляет собой значительное достижение в области искусственного интеллекта, особенно в понимании видео. Этот инновационный подход решает уникальные задачи анализа видеоконтента. Понимание задач видеоконтента Видеоматериалы более сложны…

  • Hostinger Horizons: Создавайте веб-приложения без кода с помощью ИИ

    Практические бизнес-решения с использованием Hostinger Horizons Hostinger Horizons предлагает уникальные возможности для бизнеса благодаря своей платформе без кода, которая упрощает создание веб-приложений. Вот как это может улучшить бизнес и реальную жизнь: Преимущества использования…

  • Hunyuan-T1: Революция в Искусственном Интеллекте для Бизнеса

    Практические бизнес-решения Преобразование рабочих процессов Искусственный интеллект может значительно улучшить бизнес-операции. Вот практические шаги, которые стоит рассмотреть: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. 2. Улучшите взаимодействие с…