Продвижение искусственного интеллекта (ИИ) через практические решения
Большие языковые модели (LLM), такие как трансформеры, обычно предварительно обучаются с фиксированным размером окна контекста, например, 4 тыс. токенов. Однако многие приложения требуют обработки гораздо более длинных контекстов, до 256 тыс. токенов. Расширение длины контекста этих моделей вызывает трудности, особенно в обеспечении эффективного использования информации из средней части контекста, часто называемой проблемой “Потерянное в середине”.
Решение проблемы “Потерянное в середине” с помощью метода CREAM
Исследователи из Beijing Institute for General Artificial Intelligence (BIGAI) вводят метод CREAM, ContinuityRelativity indExing with gAussian Middle, чтобы решить проблемы расширения окна контекста предварительно обученных LLM. CREAM разрабатывается для эффективного расширения LLM на значительно большие длины контекста и обеспечивает эффективное выполнение на расширенных контекстах до 256 тыс. токенов.
Методика CREAM включает две основные стратегии: обеспечение непрерывности и относительности в позиционировании. Для непрерывности CREAM манипулирует позиционными индексами, чтобы генерировать более короткие последовательности в предварительно обученном окне контекста, сохраняя плотно связанные позиционные индексы. Для относительности он использует вращающееся позиционное кодирование (RoPE) для изучения относительных позиций между парами токенов.
Эксперименты с моделями Llama-2-7B и Llama-2-7B-Chat продемонстрировали эффективность и результативность CREAM. Метод показал превосходные результаты в задачах понимания длинного контекста, включая вопросно-ответные и задачи суммаризации, превзойдя сильные базовые показатели с минимальными шагами донастройки.
В заключение, CREAM эффективно расширяет длину контекста LLM, сосредотачиваясь на информации из средней части контекста. Этот подход успешно балансирует непрерывность и относительность в позиционировании и использует метод обрезанного гауссовского выборки для улучшения понимания среднего содержания.
Подробнее см. статью.