LOONG: Новый авторегрессионный генератор видео на основе LLM, способный создавать видео продолжительностью в минуту
Практические решения и ценность:
Генерация видео с помощью LLM – перспективное направление с обещающими перспективами роста. Модель Loong обучается на текстовых и видео токенах как на единой последовательности, что позволяет ей создавать видео продолжительностью в минуты. Применение прогрессивного подхода к обучению и перераспределение потерь позволяют Loong генерировать видео, основанные на текстовых подсказках.
Прогрессивное обучение от короткого к длинному:
Модель Loong проходит три этапа обучения, начиная с предварительного обучения на статических изображениях, затем обучения на коротких видеороликах для захвата краткосрочных зависимостей и завершения с обучением на увеличенном количестве видеокадров.
Преодоление вызовов длинного видео:
Для исправления проблемы дисбаланса сложности видео токенов предложены методы перекодирования видео токенов, стратегии сэмплирования, суперразрешения и улучшения. Модель Loong генерирует длинные видео с качественным внешним видом, большой динамикой движения и естественными переходами сцен.
Применение в различных отраслях:
Модель Loong может быть задействована для помощи визуальным художникам, кинопроизводителям и развлекательным целям, улучшая процесс создания контента. Важно помнить, что модель также может быть неправильно использована для создания фейкового контента и распространения ложной информации.