Новый набор данных для отслеживания прогресса заболевания в радиологических отчетах

 RadGraph2: A New Dataset for Tracking Disease Progression in Radiology Reports

«`html

RadGraph2: Новый набор данных для отслеживания прогрессирования заболевания в радиологических отчетах

Автоматизированное извлечение информации из радиологических записей представляет существенные вызовы в области медицинской информатики. Исследователи пытаются разработать системы, способные точно извлекать и интерпретировать сложные медицинские данные из радиологических отчетов, особенно с учетом отслеживания прогрессирования заболевания со временем. Основной вызов заключается в ограниченной доступности подходяще размеченных данных, способных улавливать тонкую информацию, содержащуюся в этих отчетах. Текущие методологии часто сталкиваются с трудностями в представлении временных аспектов состояния пациента, особенно при сравнении с предыдущими обследованиями, что критично для понимания траектории здравоохранения пациента.

Практические решения и ценность

Для преодоления ограничений в улавливании временных изменений в радиологических отчетах исследователи разработали RadGraph2, улучшенную иерархическую схему для сущностей и отношений. Этот новый подход основан на исходной схеме RadGraph, расширяя ее возможности для представления различных типов изменений, наблюдаемых в состоянии пациента со временем. RadGraph2 был разработан через итеративный процесс, включающий непрерывную обратную связь от медицинских практиков для обеспечения его полноты, достоверности и надежности. Схема сохраняет исходные принципы максимизации клинически значимой информации, сохраняя простоту для эффективной разметки. Этот метод позволяет улавливать подробную информацию о находках и изменениях, описанных в радиологических отчетах, особенно с упором на сравнения с предыдущими обследованиями.

Метод RadGraph2 использует модель иерархического графа извлечения информации (HGIE) для автоматической аннотации радиологических отчетов. Этот подход использует структурированную организацию меток для улучшения производительности извлечения информации. Основу системы составляет компонент иерархического распознавания (HR), использующий таксономию сущностей для распознавания внутренних отношений между различными сущностями, используемыми в графовой разметке. Например, сущности, такие как CHAN-CON-WOR и CHAN-CON-AP, категоризируются как изменения в состоянии пациента. Система HR использует модель на основе BERT для извлечения 12 скалярных выходов, соответствующих категориям сущностей. Эти выходы представляют условные вероятности того, что сущности являются истинными, при условии истинности их родителя в иерархии сущностей.

Схема информации RadGraph2 определяет три основных типа сущностей: «анатомия», «наблюдение» и «изменение», а также три типа отношений: «изменить», «расположен в» и «подразумевает». Типы сущностей дополнительно разделены на подтипы, формируя иерархическую структуру. Сущности изменений (CHAN) являются ключевым дополнением к исходной схеме RadGraph, охватывая подтипы, такие как Нет изменений (CHAN-NC), Изменение медицинского состояния (CHAN-CON) и Изменение медицинских устройств (CHAN-DEV). Каждый из этих подтипов дополнительно категоризирован для улавливания конкретных аспектов изменений, таких как появление состояния, ухудшение, улучшение или разрешение. Сущности анатомии (ANAT) и сущности наблюдения (OBS) сохранены из исходной схемы, причем OBS дополнительно разделены на определенно присутствующие, неопределенные и отсутствующие подтипы. Эта иерархическая структура позволяет более тонко представлять информацию, содержащуюся в радиологических отчетах, особенно с упором на временные аспекты и изменения в состоянии пациента.

Схема RadGraph2 определяет три типа отношений как направленные ребра между сущностями:

  1. Отношения изменения (modify):

    • Указывают, что первая сущность изменяет вторую сущность
    • Соединяют типы сущностей: (OBS-*, OBS-*), (ANAT-DP, ANAT-DP), (CHAN-*, *), и (OBS-*, CHAN-*)
    • Пример: «правый» → «легкое» в «правое легкое»
  2. Отношения расположенности (located_at):

    • Соединяют сущности анатомии и наблюдения
    • Указывают, что наблюдение связано с анатомией
    • Соединяют типы сущностей: (OBS-*, ANAT-DP)
    • Пример: «чистый» → «легкие» в «легкие чистые»
  3. Отношения подразумевания (suggestive_of):

    • Указывают, что статус второй сущности выведен из первой сущности
    • Соединяют типы сущностей: (OBS-*, OBS-*), (CHAN-*, OBS-*), и (OBS-*, CHAN-*)
    • Пример: «опакность» → «пневмония» в «Опакность может указывать на пневмонию»

Эти отношения позволяют RadGraph2 улавливать сложные взаимосвязи между различными сущностями в радиологических отчетах, включая модификации, анатомические ассоциации и диагностические выводы. Структура отношений схемы позволяет более полно представлять информацию, содержащуюся в отчетах, облегчая лучшее понимание взаимосвязей между наблюдениями, анатомическими структурами и изменениями в состоянии пациента.

Набор данных RadGraph2 организован в три основных раздела:

  1. Обучающий набор:

    • Содержит 575 вручную размеченных отчетов
    • Используется для обучения и оптимизации модели
  2. Набор разработки:

    • Состоит из 75 вручную размеченных отчетов
    • Используется для валидации модели и настройки гиперпараметров
  3. Тестовый набор:

    • Включает 150 вручную размеченных отчетов
    • Используется для окончательной оценки модели

Ключевые характеристики набора данных:

  • Разделенность пациентов: Отчеты в каждом разделе принадлежат различным наборам пациентов
  • Соответствие исходному RadGraph: Сохраняет размещение отчетов из исходного набора данных
  • Деидентификация: Все защищенные медицинские данные в отчетах удалены

Дополнительный компонент набора данных:

  • 220 000+ автоматически размеченных отчетов:
    • Аннотированы лучшей моделью (HGIE)
    • Предоставляют крупномасштабный ресурс для дальнейших исследований и разработки моделей

Эта структура набора данных обеспечивает надежную систему оценки для RadGraph2, сохраняя целостность данных и конфиденциальность пациентов, предлагая при этом значительный корпус для обучения и тестирования передовых моделей извлечения информации в области радиологии.

RadGraph2 предоставляет обширный набор файлов для поддержки исследователей и разработчиков. Пакет данных включает файл README.md, предоставляющий краткий обзор, а также файлы train.json, dev.json и test.json, содержащие размеченные отчеты из MIMIC-CXR-JPG и CheXpert. Кроме того, два больших файла вывода, inference-chexpert.json и inference-mimic.json, содержат отчеты, размеченные бенчмарк-моделью. Формат файла следует структуре, аналогичной исходному набору данных RadGraph, используя формат JSON с иерархической словарной структурой. Каждый отчет идентифицируется уникальным ключом и содержит метаданные, такие как полный текст, раздел данных, источник данных и флаг, указывающий, является ли он частью исходного набора данных RadGraph. Ключ «сущности» внутри словаря каждого отчета содержит подробную информацию о метках сущностей и отношений, включая токены, типы меток, индексы токенов и отношения с другими сущностями. Этот структурированный формат позволяет эффективно обрабатывать и анализировать данные, позволяя исследователям использовать богатую информацию, содержащуюся в радиологических отчетах, для различных задач обработки естественного языка и медицинской информатики.

RadGraph2 представляет собой передовой подход к автоматизированному извлечению информации из радиологических отчетов, решая проблемы отслеживания прогрессирования заболевания со временем. Основные аспекты RadGraph2 включают:

  1. Улучшенная иерархическая схема: Основанная на исходной схеме RadGraph, она вводит новые типы сущностей для представления различных видов изменений в состоянии пациента.
  2. Модель иерархического графа извлечения информации: Использует структурированную организацию меток и компонент иерархического распознавания с основой на BERT.
  3. Комплексные типы сущностей: Включают сущности анатомии, наблюдения и изменения, с дополнительными подтипами для улавливания тонкой информации.
  4. Типы отношений: Определяет отношения изменения, расположенности и подразумевания для представления сложных взаимосвязей между сущностями.
  5. Структура набора данных: Включает обучающий (575 отчетов), разработочный (75 отчетов) и тестовый (150 отчетов) наборы, а также 220 000+ автоматически размеченных отчетов.
  6. Формат файла: Использует структуру JSON с подробной метаданными и информацией о сущностях для каждого отчета.

RadGraph2 стремится предоставить более полное представление временных изменений в радиологических отчетах, обеспечивая лучшее отслеживание прогрессирования заболевания и траекторий здравоохранения пациентов. Набор данных и схема предлагают исследователям надежную основу для разработки передовых моделей обработки естественного языка в медицинской области.

«`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 1

    Критические уязвимости безопасности в Протоколе Контекста Модели (MCP)

    Практические бизнес-решения для устранения уязвимостей MCP Модельный контекстный протокол (MCP) предлагает значительные преимущества, но также несет в себе риски безопасности. Вот как можно улучшить бизнес и реальную жизнь, устраняя эти уязвимости. 1. Устранение…

  • Itinai.com it company office background blured photography by 969e10ee 2e3d 4795 981a bb3a54b45014 0

    Улучшение эффективности поиска с помощью обучения с подкреплением в рамках SEM от Ant Group

    Оптимизация использования инструментов и эффективности рассуждений в ИИ Понимание проблемы Недавние разработки в области больших языковых моделей (LLMs) продемонстрировали их способность выполнять сложные задачи рассуждения и использовать внешние инструменты, такие как поисковые системы.…

  • Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 1

    Улучшение принятия решений в бизнесе с помощью обучения с подкреплением

    Практические бизнес-решения Недавние достижения в области искусственного интеллекта открывают новые возможности для бизнеса. Вот как можно использовать их для улучшения бизнес-результатов: 1. Определение возможностей автоматизации Ищите процессы, которые можно автоматизировать с помощью ИИ,…

  • Itinai.com it company office background blured photography by 431ba571 009a 4ead 8847 7d3b7a613a24 1

    Создание Интеллектуальной Системы Вопрос-Ответ на Основе AI

    Создание Эффективной Системы Вопрос-Ответ Эта инструкция описывает шаги по созданию мощной системы вопрос-ответ, используя комбинацию передовых технологий. Интеграция API Tavily Search, Chroma, Google Gemini LLM и фреймворка LangChain позволит компаниям улучшить взаимодействие с…

  • Itinai.com it company office background blured photography by 41bad236 c948 453e 803a 7165a764e0bf 1

    Оптимизация программной инженерии с помощью языковых моделей

    Оптимизация программной инженерии с помощью языковых моделей Введение в языковые модели Современные достижения в области языковых моделей (LM) показывают их потенциал для автоматизации сложных задач в различных областях, включая программную инженерию. Эти модели…

  • Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 2

    AWS Strands Agents SDK: Упрощение разработки ИИ-агентов

    AWS Strands Agents SDK: Преобразование бизнеса с помощью ИИ Amazon Web Services (AWS) открыла доступ к Strands Agents SDK, который упрощает разработку ИИ-агентов. Это решение делает ИИ доступным для различных отраслей, позволяя разработчикам…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 3

    LightLab: Революция в управлении освещением изображений с помощью ИИ

    Введение в LightLab: Новый метод ИИ для управления освещением изображений Исследователи Google в сотрудничестве с несколькими университетами разработали LightLab, передовой метод ИИ, который позволяет точно управлять освещением в изображениях. Это новшество решает проблемы…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 2

    DeepSeek-V3: Революция в языковом моделировании с повышенной эффективностью

    Оптимизация языкового моделирования с помощью DeepSeek-AI Модели, такие как DeepSeek-V3, предлагают инновационные решения для повышения эффективности бизнеса. Вот как они могут улучшить бизнес-процессы и реальную жизнь: Проблемы масштабирования языковых моделей Организации сталкиваются с…

  • Itinai.com it company office background blured photography by 724d9f47 b65a 445e b4b5 b5939a7eba28 3

    Проблемы многоповоротных разговоров в ИИ: снижение производительности на 39%

    Понимание Проблем Использования Разговорного ИИ Разговорный ИИ, особенно большие языковые модели (LLMs), направлен на улучшение взаимодействия с пользователями. Однако, исследования показали значительное снижение эффективности—39%—при выполнении многоповоротных разговоров. Значение Контекста в Разговорах Разговорный ИИ…

  • Itinai.com it company office background blured photography by 431ba571 009a 4ead 8847 7d3b7a613a24 0

    Windsurf представляет SWE-1: Инновационные AI модели для разработки программного обеспечения

    Практические бизнес-решения с использованием SWE-1 Модель SWE-1 от Windsurf предлагает ряд инновационных решений для оптимизации процессов разработки программного обеспечения. Эти решения могут значительно улучшить бизнес и повседневную жизнь, обеспечивая более эффективное взаимодействие и…

  • Itinai.com it company office background blured photography by 976ad3f5 ce78 4bd8 aa05 19f4de5f5730 2

    BLIP3-o: Новый Открытый Мультимодальный Модель от Salesforce AI

    Введение в мультимодальное моделирование Мультимодальное моделирование позволяет системам интерпретировать и генерировать контент, включая визуальные и текстовые элементы. Это улучшает взаимодействие с пользователями и создает более увлекательные впечатления. Преимущества внедрения BLIP3-o Модель BLIP3-o предоставляет…

  • Itinai.com it company office background blured photography by 724d9f47 b65a 445e b4b5 b5939a7eba28 3

    OpenAI Codex: Революция в разработке программного обеспечения

    Внедрение Codex в бизнес-процессы OpenAI Codex представляет собой мощный инструмент, который может значительно улучшить процессы разработки программного обеспечения и повысить эффективность бизнеса. Вот практические решения, как использовать Codex для улучшения бизнес-результатов. Шаги по…

  • Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 1

    LangGraph Multi-Agent Swarm: Библиотека для эффективных многопользовательских AI-систем

    Практические решения для бизнеса с использованием LangGraph Multi-Agent Swarm Введение LangGraph Multi-Agent Swarm — это библиотека Python для эффективного управления несколькими AI-агентами, работающими вместе как единое целое. Она предлагает решения для оптимизации бизнес-процессов,…

  • Itinai.com it company office background blured photography by a4b45723 df9d 4684 b150 bb2c5790acc8 1

    DanceGRPO: Революция в Генеративном ИИ для Визуального Создания

    Преобразование бизнеса с помощью ИИ: Рамочная структура DanceGRPO Введение в DanceGRPO Современные достижения в области генеративных моделей революционизировали создание визуального контента. Рамочная структура DanceGRPO сочетает эти достижения с человеческой обратной связью для улучшения…

  • Itinai.com it company office background blured photography by 0b545732 d29f 4839 a448 751a77ba1563 0

    Seed1.5-VL: Новая Эра Моделей Визуального и Текстового Понимания

    Практические бизнес-решения на основе Seed1.5-VL Как улучшить бизнес и реальную жизнь Seed1.5-VL предлагает множество возможностей для бизнеса, включая автоматизацию процессов, улучшение взаимодействия с клиентами и повышение эффективности анализа данных. Используя этот модель, компании…

  • Itinai.com it company office background blured photography by 969e10ee 2e3d 4795 981a bb3a54b45014 0

    Рост использования AI в бизнесе: ключевые тренды 2025 года

    Практические бизнес-решения на основе тенденций генеративного ИИ 1. Внедрение ИИ-инструментов для кодирования Использование ИИ для автоматизации процессов кодирования может значительно повысить производительность разработчиков. Инструменты, такие как Lovable и Cursor, показывают, как ИИ может…

  • Itinai.com it company office background blured photography by b78d385e b261 4424 829c 8c380ea5040f 1

    Запуск AlphaEvolve: Инновационный AI-агент для разработки и оптимизации алгоритмов

    Революция в открытии алгоритмов с AlphaEvolve AlphaEvolve от Google DeepMind предлагает новые решения для автоматизации процесса открытия алгоритмов, что значительно улучшает бизнес-процессы и научные исследования. Практические бизнес-решения AlphaEvolve может: Сократить время на разработку…

  • Itinai.com it company office background blured photography by e4139fc1 862c 4177 9de9 70fb39c5af9e 2

    Запуск Arcana и Rimecaster: Открытые инструменты ИИ для голосовых приложений

    Практические решения для бизнеса на основе Voice AI Введение в эволюцию Voice AI Современные системы Voice AI становятся более естественными и адаптированными к человеческому общению. Модели, такие как Arcana и Rimecaster, предлагают новые…