Новый набор данных для отслеживания прогресса заболевания в радиологических отчетах

 RadGraph2: A New Dataset for Tracking Disease Progression in Radiology Reports

“`html

RadGraph2: Новый набор данных для отслеживания прогрессирования заболевания в радиологических отчетах

Автоматизированное извлечение информации из радиологических записей представляет существенные вызовы в области медицинской информатики. Исследователи пытаются разработать системы, способные точно извлекать и интерпретировать сложные медицинские данные из радиологических отчетов, особенно с учетом отслеживания прогрессирования заболевания со временем. Основной вызов заключается в ограниченной доступности подходяще размеченных данных, способных улавливать тонкую информацию, содержащуюся в этих отчетах. Текущие методологии часто сталкиваются с трудностями в представлении временных аспектов состояния пациента, особенно при сравнении с предыдущими обследованиями, что критично для понимания траектории здравоохранения пациента.

Практические решения и ценность

Для преодоления ограничений в улавливании временных изменений в радиологических отчетах исследователи разработали RadGraph2, улучшенную иерархическую схему для сущностей и отношений. Этот новый подход основан на исходной схеме RadGraph, расширяя ее возможности для представления различных типов изменений, наблюдаемых в состоянии пациента со временем. RadGraph2 был разработан через итеративный процесс, включающий непрерывную обратную связь от медицинских практиков для обеспечения его полноты, достоверности и надежности. Схема сохраняет исходные принципы максимизации клинически значимой информации, сохраняя простоту для эффективной разметки. Этот метод позволяет улавливать подробную информацию о находках и изменениях, описанных в радиологических отчетах, особенно с упором на сравнения с предыдущими обследованиями.

Метод RadGraph2 использует модель иерархического графа извлечения информации (HGIE) для автоматической аннотации радиологических отчетов. Этот подход использует структурированную организацию меток для улучшения производительности извлечения информации. Основу системы составляет компонент иерархического распознавания (HR), использующий таксономию сущностей для распознавания внутренних отношений между различными сущностями, используемыми в графовой разметке. Например, сущности, такие как CHAN-CON-WOR и CHAN-CON-AP, категоризируются как изменения в состоянии пациента. Система HR использует модель на основе BERT для извлечения 12 скалярных выходов, соответствующих категориям сущностей. Эти выходы представляют условные вероятности того, что сущности являются истинными, при условии истинности их родителя в иерархии сущностей.

Схема информации RadGraph2 определяет три основных типа сущностей: “анатомия”, “наблюдение” и “изменение”, а также три типа отношений: “изменить”, “расположен в” и “подразумевает”. Типы сущностей дополнительно разделены на подтипы, формируя иерархическую структуру. Сущности изменений (CHAN) являются ключевым дополнением к исходной схеме RadGraph, охватывая подтипы, такие как Нет изменений (CHAN-NC), Изменение медицинского состояния (CHAN-CON) и Изменение медицинских устройств (CHAN-DEV). Каждый из этих подтипов дополнительно категоризирован для улавливания конкретных аспектов изменений, таких как появление состояния, ухудшение, улучшение или разрешение. Сущности анатомии (ANAT) и сущности наблюдения (OBS) сохранены из исходной схемы, причем OBS дополнительно разделены на определенно присутствующие, неопределенные и отсутствующие подтипы. Эта иерархическая структура позволяет более тонко представлять информацию, содержащуюся в радиологических отчетах, особенно с упором на временные аспекты и изменения в состоянии пациента.

Схема RadGraph2 определяет три типа отношений как направленные ребра между сущностями:

  1. Отношения изменения (modify):

    • Указывают, что первая сущность изменяет вторую сущность
    • Соединяют типы сущностей: (OBS-*, OBS-*), (ANAT-DP, ANAT-DP), (CHAN-*, *), и (OBS-*, CHAN-*)
    • Пример: “правый” → “легкое” в “правое легкое”
  2. Отношения расположенности (located_at):

    • Соединяют сущности анатомии и наблюдения
    • Указывают, что наблюдение связано с анатомией
    • Соединяют типы сущностей: (OBS-*, ANAT-DP)
    • Пример: “чистый” → “легкие” в “легкие чистые”
  3. Отношения подразумевания (suggestive_of):

    • Указывают, что статус второй сущности выведен из первой сущности
    • Соединяют типы сущностей: (OBS-*, OBS-*), (CHAN-*, OBS-*), и (OBS-*, CHAN-*)
    • Пример: “опакность” → “пневмония” в “Опакность может указывать на пневмонию”

Эти отношения позволяют RadGraph2 улавливать сложные взаимосвязи между различными сущностями в радиологических отчетах, включая модификации, анатомические ассоциации и диагностические выводы. Структура отношений схемы позволяет более полно представлять информацию, содержащуюся в отчетах, облегчая лучшее понимание взаимосвязей между наблюдениями, анатомическими структурами и изменениями в состоянии пациента.

Набор данных RadGraph2 организован в три основных раздела:

  1. Обучающий набор:

    • Содержит 575 вручную размеченных отчетов
    • Используется для обучения и оптимизации модели
  2. Набор разработки:

    • Состоит из 75 вручную размеченных отчетов
    • Используется для валидации модели и настройки гиперпараметров
  3. Тестовый набор:

    • Включает 150 вручную размеченных отчетов
    • Используется для окончательной оценки модели

Ключевые характеристики набора данных:

  • Разделенность пациентов: Отчеты в каждом разделе принадлежат различным наборам пациентов
  • Соответствие исходному RadGraph: Сохраняет размещение отчетов из исходного набора данных
  • Деидентификация: Все защищенные медицинские данные в отчетах удалены

Дополнительный компонент набора данных:

  • 220 000+ автоматически размеченных отчетов:
    • Аннотированы лучшей моделью (HGIE)
    • Предоставляют крупномасштабный ресурс для дальнейших исследований и разработки моделей

Эта структура набора данных обеспечивает надежную систему оценки для RadGraph2, сохраняя целостность данных и конфиденциальность пациентов, предлагая при этом значительный корпус для обучения и тестирования передовых моделей извлечения информации в области радиологии.

RadGraph2 предоставляет обширный набор файлов для поддержки исследователей и разработчиков. Пакет данных включает файл README.md, предоставляющий краткий обзор, а также файлы train.json, dev.json и test.json, содержащие размеченные отчеты из MIMIC-CXR-JPG и CheXpert. Кроме того, два больших файла вывода, inference-chexpert.json и inference-mimic.json, содержат отчеты, размеченные бенчмарк-моделью. Формат файла следует структуре, аналогичной исходному набору данных RadGraph, используя формат JSON с иерархической словарной структурой. Каждый отчет идентифицируется уникальным ключом и содержит метаданные, такие как полный текст, раздел данных, источник данных и флаг, указывающий, является ли он частью исходного набора данных RadGraph. Ключ “сущности” внутри словаря каждого отчета содержит подробную информацию о метках сущностей и отношений, включая токены, типы меток, индексы токенов и отношения с другими сущностями. Этот структурированный формат позволяет эффективно обрабатывать и анализировать данные, позволяя исследователям использовать богатую информацию, содержащуюся в радиологических отчетах, для различных задач обработки естественного языка и медицинской информатики.

RadGraph2 представляет собой передовой подход к автоматизированному извлечению информации из радиологических отчетов, решая проблемы отслеживания прогрессирования заболевания со временем. Основные аспекты RadGraph2 включают:

  1. Улучшенная иерархическая схема: Основанная на исходной схеме RadGraph, она вводит новые типы сущностей для представления различных видов изменений в состоянии пациента.
  2. Модель иерархического графа извлечения информации: Использует структурированную организацию меток и компонент иерархического распознавания с основой на BERT.
  3. Комплексные типы сущностей: Включают сущности анатомии, наблюдения и изменения, с дополнительными подтипами для улавливания тонкой информации.
  4. Типы отношений: Определяет отношения изменения, расположенности и подразумевания для представления сложных взаимосвязей между сущностями.
  5. Структура набора данных: Включает обучающий (575 отчетов), разработочный (75 отчетов) и тестовый (150 отчетов) наборы, а также 220 000+ автоматически размеченных отчетов.
  6. Формат файла: Использует структуру JSON с подробной метаданными и информацией о сущностях для каждого отчета.

RadGraph2 стремится предоставить более полное представление временных изменений в радиологических отчетах, обеспечивая лучшее отслеживание прогрессирования заболевания и траекторий здравоохранения пациентов. Набор данных и схема предлагают исследователям надежную основу для разработки передовых моделей обработки естественного языка в медицинской области.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • FFN Fusion от NVIDIA: Революция в эффективности больших языковых моделей

    Введение в большие языковые модели Большие языковые модели (LLMs) становятся все более важными в различных секторах, обеспечивая работу приложений, таких как генерация естественного языка и разговорные агенты. Однако с увеличением размера и сложности…

  • UI-R1: Улучшение предсказания действий GUI с помощью обучения с подкреплением

    UI-R1 Framework: Улучшение предсказания действий GUI с помощью ИИ Обзор проблемы Традиционный метод обучения больших языковых моделей (LLMs) и агентов графического пользовательского интерфейса (GUI) требует больших объемов размеченных данных, что приводит к длительным…

  • Эффективное Масштабирование Времени Вывода для Бизнеса

    Оптимизация времени вывода для потоковых моделей: практические бизнес-решения Введение Недавние разработки в области искусственного интеллекта сместили акцент с увеличения размера модели и объема обучающих данных на повышение эффективности вычислений во время вывода. Эта…

  • Устойчивое развитие AI для временных рядов с помощью синтетических данных: инновационный подход Salesforce

    Возможности ИИ для анализа временных рядов с использованием синтетических данных Анализ временных рядов имеет огромное значение для бизнеса, но он сталкивается с проблемами доступности и качества данных. Использование синтетических данных может решить эти…

  • Руководство по решению уравнения Бюргера 1D с помощью PINNs в PyTorch

    Практическое руководство по преобразованию бизнеса с помощью ИИ Это руководство демонстрирует, как использовать физически обоснованные нейронные сети (PINNs) для решения уравнения Бургенса и как такие технологии могут улучшить бизнес-процессы и реальную жизнь. Шаги…

  • Открытие OpenVLThinker-7B: Новый уровень визуального мышления для бизнеса

    Улучшение визуального мышления с OpenVLThinker-7B Понимание проблемы Модели, объединяющие обработку языка и интерпретацию изображений, испытывают трудности с многошаговым мышлением. Это создает проблемы в таких задачах, как понимание графиков и решение визуальных математических задач.…

  • Создание агента по анализу данных с использованием Gemini 2.0 и Google API

    Создание агента научных данных с интеграцией ИИ Введение Этот гид описывает, как создать агента научных данных, используя библиотеку Pandas на Python и возможности генеративного ИИ от Google. Следуя этому руководству, бизнес сможет использовать…

  • TxGemma: Революция в разработке лекарств с помощью ИИ от Google

    Введение в TxGemma Разработка лекарств – это сложный и дорогостоящий процесс. TxGemma от Google AI предлагает инновационные решения для оптимизации этого процесса, что позволяет сэкономить время и ресурсы. Решение TxGemma TxGemma использует большие…

  • Открытый Глубокий Поиск: Демократизация ИИ-поиска с помощью открытых агентов рассуждения

    Практические бизнес-решения на основе Open Deep Search (ODS) 1. Автоматизация процессов Определите области, где ИИ может автоматизировать рутинные задачи, что приведет к повышению эффективности и производительности. 2. Улучшение взаимодействия с клиентами Используйте ИИ…

  • Оценка глубины изображения с использованием Intel MiDaS на Google Colab

    Практические бизнес-решения с использованием оценки глубины через монохромное изображение Оценка глубины из одного RGB-изображения с помощью модели Intel MiDaS может значительно улучшить бизнес-процессы, такие как: Улучшение взаимодействия с клиентами через дополненную реальность. Оптимизация…

  • TokenBridge: Оптимизация токенов для улучшенной визуальной генерации

    TokenBridge: Оптимизация визуальной генерации с помощью ИИ Введение в модели визуальной генерации Модели визуальной генерации на основе автогрессии значительно продвинулись в синтезе изображений, благодаря их способности использовать механизмы предсказания токенов, вдохновленные языковыми моделями.…

  • Колмогоров-Тест: Новый Стандарт Оценки Моделей Генерации Кода

    П practical business solutions Чтобы использовать возможности ИИ в вашем бизнесе, рассмотрите следующие стратегии: 1. Определите возможности автоматизации Ищите повторяющиеся задачи или взаимодействия с клиентами, которые ИИ может оптимизировать. Это поможет сократить время…

  • CaMeL: Надежная защита больших языковых моделей от атак

    Улучшение безопасности с помощью CaMeL Введение в проблему Большие языковые модели (LLM) играют важную роль в современных технологиях, но сталкиваются с угрозами безопасности, такими как атаки через инъекции команд. Эти угрозы могут привести…

  • Преобразование бизнес-процессов с помощью AI: Фреймворк PLAN-AND-ACT

    Преобразование бизнес-процессов с помощью ИИ: Рамочная структура PLAN-AND-ACT Понимание проблем Компании сталкиваются с вызовами при использовании ИИ, такими как сложность выполнения задач и адаптация к динамичным условиям. Это требует перевода пользовательских инструкций в…

  • DeepSeek V3-0324: Революция в AI для бизнеса

    Введение Искусственный интеллект (ИИ) значительно развился, но многие компании сталкиваются с высокими затратами на вычисления и разработку больших языковых моделей (LLM). Решение этих проблем возможно благодаря новейшей модели DeepSeek-V3-0324. Решение DeepSeek-V3-0324 Модель DeepSeek-V3-0324…

  • Понимание и улучшение многоагентных систем в ИИ

    Понимание и улучшение многопользовательских систем Введение в многопользовательские системы Многопользовательские системы (MAS) включают сотрудничество нескольких агентов ИИ для выполнения сложных задач. Несмотря на их потенциал, эти системы часто работают хуже, чем одноагентные решения.…

  • Gemini 2.5 Pro: Революция в Искусственном Интеллекте

    Практические бизнес-решения Трансформация бизнес-процессов Компании могут использовать AI-модели, такие как Gemini 2.5 Pro, для повышения операционной эффективности. Вот несколько практических шагов: 1. Определите возможности автоматизации Изучите процессы, которые можно автоматизировать. Анализируйте взаимодействия с…

  • Современные решения для оценки позы человека в бизнесе

    Бизнес-решения: Продвинутая оценка позы человека Введение в оценку позы человека Оценка позы человека — это инновационная технология, которая преобразует визуальную информацию в практические данные о движении человека. Используя такие модели, как MediaPipe, компании…