Улучшение точности диагностики в LLM с помощью RuleAlign: исследование на примере набора данных UrologyRD

 Enhancing Diagnostic Accuracy in LLMs with RuleAlign: A Case Study Using the UrologyRD Dataset

Улучшение точности диагностики в LLM с помощью RuleAlign: исследование на примере набора данных UrologyRD

Искусственные интеллектуальные модели (LLM) такие как GPT-4, MedPaLM-2 и Med-Gemini успешно справляются с медицинскими бенчмарками, но им требуется помощь, чтобы воспроизвести диагностические способности врачей. Для улучшения их эффективности в качестве врачей AI, исследователи из Университета Чжэцзян и Ant Group представили фреймворк RuleAlign, который выравнивает LLM с конкретными диагностическими правилами. Он обучается, чтобы убедиться, что его ответы соответствуют установленным протоколам без дополнительной аннотации человека. Экспериментальные результаты показывают, что RuleAlign улучшает производительность LLM как в однокруговых, так и в многокруговых оценках, демонстрируя свой потенциал в медицинской диагностике.

Применение в медицине

Медицинские LLM быстро развиваются в академической среде и индустрии, с усилиями, направленными на интеграцию медицинских данных в общие LLM через надзорное дообучение (SFT). Оптимизация LLM через обучение предпочтениям и модели вознаграждения улучшает подходы к выравниванию моделей, такие как RLHF и DPO. Техники, такие как SLiC и SPIN, совершенствуют выравнивание путем объединения функций потерь, аугментации данных и итеративного обучения.

Создание набора данных UrologyRD

Для создания набора данных UrologyRD исследователи сначала собрали детальные диагностические правила, сосредотачиваясь на урологии, указывая ограничения, связанные с болезнями, и необходимые доказательства для диагностики. Набор данных был создан путем отображения названий болезней на более широкие категории и адаптации диалогов с использованием этих правил.

Оценка производительности

Однокруговые и многокруговые тесты используются для оценки производительности LLM в медицинской диагностике. Метрики, такие как перплексия, ROUGE и BLEU, применяются в однокруговых тестах. В то же время тестирование SP оценивает модели на полноту информации, логическую последовательность, диагностическую логичность, клиническую применимость и логичность лечения. RuleAlign демонстрирует превосходную производительность, улучшая оценки ROUGE и BLEU и снижая перплексию.

Заключение

Исследование представляет набор данных UrologyRD, основанный на диагностических правилах, и предлагает RuleAlign, инновационный метод автоматического синтеза предпочтительных пар и выравнивания. Несмотря на прогресс в LLM, таких как GPT-4, MedPaLM-2 и Med-Gemini, вызовы остаются в их диагностических способностях. RuleAlign стремится решить эти проблемы, выравнивая LLM с диагностическими правилами, что может продвинуть исследования в области медицинских приложений, основанных на ИИ, и улучшить роль LLM как AI-врачей.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект