Улучшение точности диагностики в LLM с помощью RuleAlign: исследование на примере набора данных UrologyRD
Искусственные интеллектуальные модели (LLM) такие как GPT-4, MedPaLM-2 и Med-Gemini успешно справляются с медицинскими бенчмарками, но им требуется помощь, чтобы воспроизвести диагностические способности врачей. Для улучшения их эффективности в качестве врачей AI, исследователи из Университета Чжэцзян и Ant Group представили фреймворк RuleAlign, который выравнивает LLM с конкретными диагностическими правилами. Он обучается, чтобы убедиться, что его ответы соответствуют установленным протоколам без дополнительной аннотации человека. Экспериментальные результаты показывают, что RuleAlign улучшает производительность LLM как в однокруговых, так и в многокруговых оценках, демонстрируя свой потенциал в медицинской диагностике.
Применение в медицине
Медицинские LLM быстро развиваются в академической среде и индустрии, с усилиями, направленными на интеграцию медицинских данных в общие LLM через надзорное дообучение (SFT). Оптимизация LLM через обучение предпочтениям и модели вознаграждения улучшает подходы к выравниванию моделей, такие как RLHF и DPO. Техники, такие как SLiC и SPIN, совершенствуют выравнивание путем объединения функций потерь, аугментации данных и итеративного обучения.
Создание набора данных UrologyRD
Для создания набора данных UrologyRD исследователи сначала собрали детальные диагностические правила, сосредотачиваясь на урологии, указывая ограничения, связанные с болезнями, и необходимые доказательства для диагностики. Набор данных был создан путем отображения названий болезней на более широкие категории и адаптации диалогов с использованием этих правил.
Оценка производительности
Однокруговые и многокруговые тесты используются для оценки производительности LLM в медицинской диагностике. Метрики, такие как перплексия, ROUGE и BLEU, применяются в однокруговых тестах. В то же время тестирование SP оценивает модели на полноту информации, логическую последовательность, диагностическую логичность, клиническую применимость и логичность лечения. RuleAlign демонстрирует превосходную производительность, улучшая оценки ROUGE и BLEU и снижая перплексию.
Заключение
Исследование представляет набор данных UrologyRD, основанный на диагностических правилах, и предлагает RuleAlign, инновационный метод автоматического синтеза предпочтительных пар и выравнивания. Несмотря на прогресс в LLM, таких как GPT-4, MedPaLM-2 и Med-Gemini, вызовы остаются в их диагностических способностях. RuleAlign стремится решить эти проблемы, выравнивая LLM с диагностическими правилами, что может продвинуть исследования в области медицинских приложений, основанных на ИИ, и улучшить роль LLM как AI-врачей.