Защита здравоохранения с помощью искусственного интеллекта: выявление и устранение рисков манипулирования LLM
Большие языковые модели (LLM), такие как ChatGPT и GPT-4, добились значительных успехов в исследованиях в области искусственного интеллекта, превзойдя предыдущие передовые методы по различным показателям. Эти модели обладают большим потенциалом в здравоохранении, предлагая передовые инструменты для повышения эффективности через понимание и ответ на естественном языке.
Однако интеграция LLM в биомедицинские и медицинские приложения сталкивается с серьезным вызовом: их уязвимость к злонамеренным манипуляциям. Даже коммерчески доступные LLM с встроенными защитными механизмами могут быть обмануты для генерации вредных результатов. Эта уязвимость представляет значительные риски, особенно в медицинских средах, где ставки высоки.
Практические решения и ценность
Наша работа позволяет выявить уязвимости LLM в медицинских контекстах и демонстрирует, что как открытые, так и коммерческие модели подвержены атакам. Мы обнаружили, что атаки не оказывают значительного влияния на общую производительность модели в медицинских задачах, однако сложные сценарии требуют более высокой концентрации атакующих образцов для достижения насыщения атаки по сравнению с задачами в общей области.
Результаты нашего исследования подчеркивают критическую необходимость разработки передовых протоколов безопасности в развертывании LLM, особенно поскольку эти модели все более интегрируются в процессы автоматизации здравоохранения. Мы выявили, что различия в весовых шаблонах между отфильтрованными и чистыми моделями предлагают потенциальную стратегию для разработки защитных механизмов.