Проблема протечки инструкций в крупных языковых моделях (LLM)
Крупные языковые модели (LLM) привлекли значительное внимание в последние годы, но они столкнулись с критической проблемой безопасности, известной как протечка инструкций. Эта уязвимость позволяет злоумышленникам извлекать чувствительную информацию из инструкций LLM через целенаправленные атаки. Проблема заключается в конфликте между обучением безопасности и целями следования инструкциям в LLM. Протечка инструкций представляет существенные риски, включая раскрытие интеллектуальной собственности системы, чувствительных контекстуальных знаний, стилевых рекомендаций и даже вызовов к API в системах на основе агентов. Угроза особенно тревожна из-за ее эффективности и простоты, а также широкого распространения приложений, интегрированных с LLM. Предыдущие исследования изучали протечку инструкций в одноходовых взаимодействиях, но более сложный многоходовой сценарий остается недостаточно изученным. Кроме того, существует настоятельная необходимость в надежных стратегиях защиты для смягчения этой уязвимости и защиты доверия пользователей.
Практические решения и ценность
Исследователи предприняли несколько попыток решить проблему протечки инструкций в приложениях LLM. Была разработана система PromptInject для изучения утечки инструкций в GPT-3, а также предложены методы оптимизации на основе градиентов для генерации атакующих запросов для протечки инструкций системы. Другие подходы включают извлечение параметров и методологии восстановления инструкций. Исследования также сосредоточены на измерении протечки инструкций системы в реальных приложениях LLM и изучении уязвимости интегрированных инструментов LLM к косвенным атакам внедрения инструкций.