Использование теории вейвлетов для ускорения обучения моделей языка различных типов данных

 WaveletGPT: Leveraging Wavelet Theory for Speedier LLM Training Across Modalities






WaveletGPT: Применение волнового преобразования для ускорения обучения LLM в различных областях

WaveletGPT: Применение волнового преобразования для ускорения обучения LLM в различных областях

Большие языковые модели (LLM) революционизировали искусственный интеллект, оказывая влияние на различные научные и инженерные дисциплины. Архитектура Transformer, изначально созданная для машинного перевода, стала основой для моделей GPT, значительно продвигая эту область. Однако текущие LLM сталкиваются с вызовами в подходе к обучению, который в основном сосредоточен на предсказании следующего токена на основе предыдущего контекста при сохранении причинности. Этот простой метод был применен в различных областях, включая робототехнику, последовательности белков, аудиообработку и анализ видео.

Практические решения и ценность:

Исследователи из Стэнфорда предлагают первый пример внедрения волновых преобразований в LLM, WaveletGPT, для улучшения LLM путем внедрения волновых преобразований в их архитектуру. Эта техника добавляет многошкальные фильтры к промежуточным вложениям слоев декодера трансформера с использованием вейвлетов Хаара. Инновация позволяет каждому предсказанию следующего токена получать доступ к многошкальным представлениям на каждом уровне, вместо использования представлений с фиксированным разрешением.

Этот метод ускоряет предварительное обучение LLM на основе трансформера на 40-60% без добавления дополнительных параметров, что является значительным прорывом, учитывая широкое использование архитектур на основе декодера трансформера в различных модальностях. Подход также демонстрирует существенное улучшение производительности при том же количестве шагов обучения, сравнимое с добавлением нескольких слоев или параметров.

Операция на основе вейвлетов показывает увеличение производительности в трех различных модальностях: язык (текст-8), сырой звук (YoutubeMix) и символьная музыка (MAESTRO), подчеркивая ее универсальность для структурированных наборов данных.

Предложенный метод внедряет вейвлеты в LLM на основе трансформера, сохраняя предположение о причинности. Этот подход может быть применен к различным архитектурам, включая не трансформерные настройки. Техника сосредотачивается на манипулировании промежуточными вложениями из каждого слоя декодера.


Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект