Простой и эффективный метод расширения контекста для больших языковых моделей: CREAM – новый подход из Китая.

 This AI Paper from China Proposes Continuity-Relativity indExing with gAussian Middle (CREAM): A Simple yet Effective AI Method to Extend the Context of Large Language Models

Продвижение искусственного интеллекта (ИИ) через практические решения

Большие языковые модели (LLM), такие как трансформеры, обычно предварительно обучаются с фиксированным размером окна контекста, например, 4 тыс. токенов. Однако многие приложения требуют обработки гораздо более длинных контекстов, до 256 тыс. токенов. Расширение длины контекста этих моделей вызывает трудности, особенно в обеспечении эффективного использования информации из средней части контекста, часто называемой проблемой “Потерянное в середине”.

Решение проблемы “Потерянное в середине” с помощью метода CREAM

Исследователи из Beijing Institute for General Artificial Intelligence (BIGAI) вводят метод CREAM, ContinuityRelativity indExing with gAussian Middle, чтобы решить проблемы расширения окна контекста предварительно обученных LLM. CREAM разрабатывается для эффективного расширения LLM на значительно большие длины контекста и обеспечивает эффективное выполнение на расширенных контекстах до 256 тыс. токенов.

Методика CREAM включает две основные стратегии: обеспечение непрерывности и относительности в позиционировании. Для непрерывности CREAM манипулирует позиционными индексами, чтобы генерировать более короткие последовательности в предварительно обученном окне контекста, сохраняя плотно связанные позиционные индексы. Для относительности он использует вращающееся позиционное кодирование (RoPE) для изучения относительных позиций между парами токенов.

Эксперименты с моделями Llama-2-7B и Llama-2-7B-Chat продемонстрировали эффективность и результативность CREAM. Метод показал превосходные результаты в задачах понимания длинного контекста, включая вопросно-ответные и задачи суммаризации, превзойдя сильные базовые показатели с минимальными шагами донастройки.

В заключение, CREAM эффективно расширяет длину контекста LLM, сосредотачиваясь на информации из средней части контекста. Этот подход успешно балансирует непрерывность и относительность в позиционировании и использует метод обрезанного гауссовского выборки для улучшения понимания среднего содержания.

Подробнее см. статью.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект