Новый набор данных для отслеживания прогресса заболевания в радиологических отчетах

 RadGraph2: A New Dataset for Tracking Disease Progression in Radiology Reports

“`html

RadGraph2: Новый набор данных для отслеживания прогрессирования заболевания в радиологических отчетах

Автоматизированное извлечение информации из радиологических записей представляет существенные вызовы в области медицинской информатики. Исследователи пытаются разработать системы, способные точно извлекать и интерпретировать сложные медицинские данные из радиологических отчетов, особенно с учетом отслеживания прогрессирования заболевания со временем. Основной вызов заключается в ограниченной доступности подходяще размеченных данных, способных улавливать тонкую информацию, содержащуюся в этих отчетах. Текущие методологии часто сталкиваются с трудностями в представлении временных аспектов состояния пациента, особенно при сравнении с предыдущими обследованиями, что критично для понимания траектории здравоохранения пациента.

Практические решения и ценность

Для преодоления ограничений в улавливании временных изменений в радиологических отчетах исследователи разработали RadGraph2, улучшенную иерархическую схему для сущностей и отношений. Этот новый подход основан на исходной схеме RadGraph, расширяя ее возможности для представления различных типов изменений, наблюдаемых в состоянии пациента со временем. RadGraph2 был разработан через итеративный процесс, включающий непрерывную обратную связь от медицинских практиков для обеспечения его полноты, достоверности и надежности. Схема сохраняет исходные принципы максимизации клинически значимой информации, сохраняя простоту для эффективной разметки. Этот метод позволяет улавливать подробную информацию о находках и изменениях, описанных в радиологических отчетах, особенно с упором на сравнения с предыдущими обследованиями.

Метод RadGraph2 использует модель иерархического графа извлечения информации (HGIE) для автоматической аннотации радиологических отчетов. Этот подход использует структурированную организацию меток для улучшения производительности извлечения информации. Основу системы составляет компонент иерархического распознавания (HR), использующий таксономию сущностей для распознавания внутренних отношений между различными сущностями, используемыми в графовой разметке. Например, сущности, такие как CHAN-CON-WOR и CHAN-CON-AP, категоризируются как изменения в состоянии пациента. Система HR использует модель на основе BERT для извлечения 12 скалярных выходов, соответствующих категориям сущностей. Эти выходы представляют условные вероятности того, что сущности являются истинными, при условии истинности их родителя в иерархии сущностей.

Схема информации RadGraph2 определяет три основных типа сущностей: “анатомия”, “наблюдение” и “изменение”, а также три типа отношений: “изменить”, “расположен в” и “подразумевает”. Типы сущностей дополнительно разделены на подтипы, формируя иерархическую структуру. Сущности изменений (CHAN) являются ключевым дополнением к исходной схеме RadGraph, охватывая подтипы, такие как Нет изменений (CHAN-NC), Изменение медицинского состояния (CHAN-CON) и Изменение медицинских устройств (CHAN-DEV). Каждый из этих подтипов дополнительно категоризирован для улавливания конкретных аспектов изменений, таких как появление состояния, ухудшение, улучшение или разрешение. Сущности анатомии (ANAT) и сущности наблюдения (OBS) сохранены из исходной схемы, причем OBS дополнительно разделены на определенно присутствующие, неопределенные и отсутствующие подтипы. Эта иерархическая структура позволяет более тонко представлять информацию, содержащуюся в радиологических отчетах, особенно с упором на временные аспекты и изменения в состоянии пациента.

Схема RadGraph2 определяет три типа отношений как направленные ребра между сущностями:

  1. Отношения изменения (modify):

    • Указывают, что первая сущность изменяет вторую сущность
    • Соединяют типы сущностей: (OBS-*, OBS-*), (ANAT-DP, ANAT-DP), (CHAN-*, *), и (OBS-*, CHAN-*)
    • Пример: “правый” → “легкое” в “правое легкое”
  2. Отношения расположенности (located_at):

    • Соединяют сущности анатомии и наблюдения
    • Указывают, что наблюдение связано с анатомией
    • Соединяют типы сущностей: (OBS-*, ANAT-DP)
    • Пример: “чистый” → “легкие” в “легкие чистые”
  3. Отношения подразумевания (suggestive_of):

    • Указывают, что статус второй сущности выведен из первой сущности
    • Соединяют типы сущностей: (OBS-*, OBS-*), (CHAN-*, OBS-*), и (OBS-*, CHAN-*)
    • Пример: “опакность” → “пневмония” в “Опакность может указывать на пневмонию”

Эти отношения позволяют RadGraph2 улавливать сложные взаимосвязи между различными сущностями в радиологических отчетах, включая модификации, анатомические ассоциации и диагностические выводы. Структура отношений схемы позволяет более полно представлять информацию, содержащуюся в отчетах, облегчая лучшее понимание взаимосвязей между наблюдениями, анатомическими структурами и изменениями в состоянии пациента.

Набор данных RadGraph2 организован в три основных раздела:

  1. Обучающий набор:

    • Содержит 575 вручную размеченных отчетов
    • Используется для обучения и оптимизации модели
  2. Набор разработки:

    • Состоит из 75 вручную размеченных отчетов
    • Используется для валидации модели и настройки гиперпараметров
  3. Тестовый набор:

    • Включает 150 вручную размеченных отчетов
    • Используется для окончательной оценки модели

Ключевые характеристики набора данных:

  • Разделенность пациентов: Отчеты в каждом разделе принадлежат различным наборам пациентов
  • Соответствие исходному RadGraph: Сохраняет размещение отчетов из исходного набора данных
  • Деидентификация: Все защищенные медицинские данные в отчетах удалены

Дополнительный компонент набора данных:

  • 220 000+ автоматически размеченных отчетов:
    • Аннотированы лучшей моделью (HGIE)
    • Предоставляют крупномасштабный ресурс для дальнейших исследований и разработки моделей

Эта структура набора данных обеспечивает надежную систему оценки для RadGraph2, сохраняя целостность данных и конфиденциальность пациентов, предлагая при этом значительный корпус для обучения и тестирования передовых моделей извлечения информации в области радиологии.

RadGraph2 предоставляет обширный набор файлов для поддержки исследователей и разработчиков. Пакет данных включает файл README.md, предоставляющий краткий обзор, а также файлы train.json, dev.json и test.json, содержащие размеченные отчеты из MIMIC-CXR-JPG и CheXpert. Кроме того, два больших файла вывода, inference-chexpert.json и inference-mimic.json, содержат отчеты, размеченные бенчмарк-моделью. Формат файла следует структуре, аналогичной исходному набору данных RadGraph, используя формат JSON с иерархической словарной структурой. Каждый отчет идентифицируется уникальным ключом и содержит метаданные, такие как полный текст, раздел данных, источник данных и флаг, указывающий, является ли он частью исходного набора данных RadGraph. Ключ “сущности” внутри словаря каждого отчета содержит подробную информацию о метках сущностей и отношений, включая токены, типы меток, индексы токенов и отношения с другими сущностями. Этот структурированный формат позволяет эффективно обрабатывать и анализировать данные, позволяя исследователям использовать богатую информацию, содержащуюся в радиологических отчетах, для различных задач обработки естественного языка и медицинской информатики.

RadGraph2 представляет собой передовой подход к автоматизированному извлечению информации из радиологических отчетов, решая проблемы отслеживания прогрессирования заболевания со временем. Основные аспекты RadGraph2 включают:

  1. Улучшенная иерархическая схема: Основанная на исходной схеме RadGraph, она вводит новые типы сущностей для представления различных видов изменений в состоянии пациента.
  2. Модель иерархического графа извлечения информации: Использует структурированную организацию меток и компонент иерархического распознавания с основой на BERT.
  3. Комплексные типы сущностей: Включают сущности анатомии, наблюдения и изменения, с дополнительными подтипами для улавливания тонкой информации.
  4. Типы отношений: Определяет отношения изменения, расположенности и подразумевания для представления сложных взаимосвязей между сущностями.
  5. Структура набора данных: Включает обучающий (575 отчетов), разработочный (75 отчетов) и тестовый (150 отчетов) наборы, а также 220 000+ автоматически размеченных отчетов.
  6. Формат файла: Использует структуру JSON с подробной метаданными и информацией о сущностях для каждого отчета.

RadGraph2 стремится предоставить более полное представление временных изменений в радиологических отчетах, обеспечивая лучшее отслеживание прогрессирования заболевания и траекторий здравоохранения пациентов. Набор данных и схема предлагают исследователям надежную основу для разработки передовых моделей обработки естественного языка в медицинской области.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект