Новый набор данных для отслеживания прогресса заболевания в радиологических отчетах

 RadGraph2: A New Dataset for Tracking Disease Progression in Radiology Reports

“`html

RadGraph2: Новый набор данных для отслеживания прогрессирования заболевания в радиологических отчетах

Автоматизированное извлечение информации из радиологических записей представляет существенные вызовы в области медицинской информатики. Исследователи пытаются разработать системы, способные точно извлекать и интерпретировать сложные медицинские данные из радиологических отчетов, особенно с учетом отслеживания прогрессирования заболевания со временем. Основной вызов заключается в ограниченной доступности подходяще размеченных данных, способных улавливать тонкую информацию, содержащуюся в этих отчетах. Текущие методологии часто сталкиваются с трудностями в представлении временных аспектов состояния пациента, особенно при сравнении с предыдущими обследованиями, что критично для понимания траектории здравоохранения пациента.

Практические решения и ценность

Для преодоления ограничений в улавливании временных изменений в радиологических отчетах исследователи разработали RadGraph2, улучшенную иерархическую схему для сущностей и отношений. Этот новый подход основан на исходной схеме RadGraph, расширяя ее возможности для представления различных типов изменений, наблюдаемых в состоянии пациента со временем. RadGraph2 был разработан через итеративный процесс, включающий непрерывную обратную связь от медицинских практиков для обеспечения его полноты, достоверности и надежности. Схема сохраняет исходные принципы максимизации клинически значимой информации, сохраняя простоту для эффективной разметки. Этот метод позволяет улавливать подробную информацию о находках и изменениях, описанных в радиологических отчетах, особенно с упором на сравнения с предыдущими обследованиями.

Метод RadGraph2 использует модель иерархического графа извлечения информации (HGIE) для автоматической аннотации радиологических отчетов. Этот подход использует структурированную организацию меток для улучшения производительности извлечения информации. Основу системы составляет компонент иерархического распознавания (HR), использующий таксономию сущностей для распознавания внутренних отношений между различными сущностями, используемыми в графовой разметке. Например, сущности, такие как CHAN-CON-WOR и CHAN-CON-AP, категоризируются как изменения в состоянии пациента. Система HR использует модель на основе BERT для извлечения 12 скалярных выходов, соответствующих категориям сущностей. Эти выходы представляют условные вероятности того, что сущности являются истинными, при условии истинности их родителя в иерархии сущностей.

Схема информации RadGraph2 определяет три основных типа сущностей: “анатомия”, “наблюдение” и “изменение”, а также три типа отношений: “изменить”, “расположен в” и “подразумевает”. Типы сущностей дополнительно разделены на подтипы, формируя иерархическую структуру. Сущности изменений (CHAN) являются ключевым дополнением к исходной схеме RadGraph, охватывая подтипы, такие как Нет изменений (CHAN-NC), Изменение медицинского состояния (CHAN-CON) и Изменение медицинских устройств (CHAN-DEV). Каждый из этих подтипов дополнительно категоризирован для улавливания конкретных аспектов изменений, таких как появление состояния, ухудшение, улучшение или разрешение. Сущности анатомии (ANAT) и сущности наблюдения (OBS) сохранены из исходной схемы, причем OBS дополнительно разделены на определенно присутствующие, неопределенные и отсутствующие подтипы. Эта иерархическая структура позволяет более тонко представлять информацию, содержащуюся в радиологических отчетах, особенно с упором на временные аспекты и изменения в состоянии пациента.

Схема RadGraph2 определяет три типа отношений как направленные ребра между сущностями:

  1. Отношения изменения (modify):

    • Указывают, что первая сущность изменяет вторую сущность
    • Соединяют типы сущностей: (OBS-*, OBS-*), (ANAT-DP, ANAT-DP), (CHAN-*, *), и (OBS-*, CHAN-*)
    • Пример: “правый” → “легкое” в “правое легкое”
  2. Отношения расположенности (located_at):

    • Соединяют сущности анатомии и наблюдения
    • Указывают, что наблюдение связано с анатомией
    • Соединяют типы сущностей: (OBS-*, ANAT-DP)
    • Пример: “чистый” → “легкие” в “легкие чистые”
  3. Отношения подразумевания (suggestive_of):

    • Указывают, что статус второй сущности выведен из первой сущности
    • Соединяют типы сущностей: (OBS-*, OBS-*), (CHAN-*, OBS-*), и (OBS-*, CHAN-*)
    • Пример: “опакность” → “пневмония” в “Опакность может указывать на пневмонию”

Эти отношения позволяют RadGraph2 улавливать сложные взаимосвязи между различными сущностями в радиологических отчетах, включая модификации, анатомические ассоциации и диагностические выводы. Структура отношений схемы позволяет более полно представлять информацию, содержащуюся в отчетах, облегчая лучшее понимание взаимосвязей между наблюдениями, анатомическими структурами и изменениями в состоянии пациента.

Набор данных RadGraph2 организован в три основных раздела:

  1. Обучающий набор:

    • Содержит 575 вручную размеченных отчетов
    • Используется для обучения и оптимизации модели
  2. Набор разработки:

    • Состоит из 75 вручную размеченных отчетов
    • Используется для валидации модели и настройки гиперпараметров
  3. Тестовый набор:

    • Включает 150 вручную размеченных отчетов
    • Используется для окончательной оценки модели

Ключевые характеристики набора данных:

  • Разделенность пациентов: Отчеты в каждом разделе принадлежат различным наборам пациентов
  • Соответствие исходному RadGraph: Сохраняет размещение отчетов из исходного набора данных
  • Деидентификация: Все защищенные медицинские данные в отчетах удалены

Дополнительный компонент набора данных:

  • 220 000+ автоматически размеченных отчетов:
    • Аннотированы лучшей моделью (HGIE)
    • Предоставляют крупномасштабный ресурс для дальнейших исследований и разработки моделей

Эта структура набора данных обеспечивает надежную систему оценки для RadGraph2, сохраняя целостность данных и конфиденциальность пациентов, предлагая при этом значительный корпус для обучения и тестирования передовых моделей извлечения информации в области радиологии.

RadGraph2 предоставляет обширный набор файлов для поддержки исследователей и разработчиков. Пакет данных включает файл README.md, предоставляющий краткий обзор, а также файлы train.json, dev.json и test.json, содержащие размеченные отчеты из MIMIC-CXR-JPG и CheXpert. Кроме того, два больших файла вывода, inference-chexpert.json и inference-mimic.json, содержат отчеты, размеченные бенчмарк-моделью. Формат файла следует структуре, аналогичной исходному набору данных RadGraph, используя формат JSON с иерархической словарной структурой. Каждый отчет идентифицируется уникальным ключом и содержит метаданные, такие как полный текст, раздел данных, источник данных и флаг, указывающий, является ли он частью исходного набора данных RadGraph. Ключ “сущности” внутри словаря каждого отчета содержит подробную информацию о метках сущностей и отношений, включая токены, типы меток, индексы токенов и отношения с другими сущностями. Этот структурированный формат позволяет эффективно обрабатывать и анализировать данные, позволяя исследователям использовать богатую информацию, содержащуюся в радиологических отчетах, для различных задач обработки естественного языка и медицинской информатики.

RadGraph2 представляет собой передовой подход к автоматизированному извлечению информации из радиологических отчетов, решая проблемы отслеживания прогрессирования заболевания со временем. Основные аспекты RadGraph2 включают:

  1. Улучшенная иерархическая схема: Основанная на исходной схеме RadGraph, она вводит новые типы сущностей для представления различных видов изменений в состоянии пациента.
  2. Модель иерархического графа извлечения информации: Использует структурированную организацию меток и компонент иерархического распознавания с основой на BERT.
  3. Комплексные типы сущностей: Включают сущности анатомии, наблюдения и изменения, с дополнительными подтипами для улавливания тонкой информации.
  4. Типы отношений: Определяет отношения изменения, расположенности и подразумевания для представления сложных взаимосвязей между сущностями.
  5. Структура набора данных: Включает обучающий (575 отчетов), разработочный (75 отчетов) и тестовый (150 отчетов) наборы, а также 220 000+ автоматически размеченных отчетов.
  6. Формат файла: Использует структуру JSON с подробной метаданными и информацией о сущностях для каждого отчета.

RadGraph2 стремится предоставить более полное представление временных изменений в радиологических отчетах, обеспечивая лучшее отслеживание прогрессирования заболевания и траекторий здравоохранения пациентов. Набор данных и схема предлагают исследователям надежную основу для разработки передовых моделей обработки естественного языка в медицинской области.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Запуск BingoGuard: Новый уровень модерации контента от Salesforce AI

    Обзор BingoGuard Salesforce AI представила BingoGuard, инновационную систему модерации контента, использующую большие языковые модели (LLMs). Эта система решает проблемы традиционной модерации, обеспечивая более точную классификацию контента. Ключевые особенности BingoGuard Гранулярная классификация: BingoGuard классифицирует…

  • Улучшение принятия решений в Гомоку с использованием ИИ и обучения с подкреплением

    Улучшение стратегического принятия решений с помощью ИИ в Гомоку Введение Искусственный интеллект (ИИ) может значительно улучшить бизнес-процессы, используя технологии, подобные большим языковым моделям (LLM). Эти модели способны анализировать данные и генерировать идеи, что…

  • PaperBench: Новый стандарт оценки ИИ в исследованиях машинного обучения

    Введение Быстрые достижения в области искусственного интеллекта (ИИ) подчеркивают необходимость эффективных методов оценки. Использование PaperBench может значительно улучшить способность вашей компании использовать ИИ для автоматизации исследовательских задач. Что такое PaperBench? PaperBench — это…

  • Снижение галлюцинаций в больших моделях визуально-языковых систем: практические бизнес-решения

    Снижение галлюцинаций в больших моделях визуального и языкового понимания Понимание проблемы галлюцинаций в LVLM Большие модели визуального и языкового понимания (LVLM) являются мощными инструментами, которые объединяют визуальные и текстовые данные для выполнения задач,…

  • Запуск передовой многомодальной модели встраивания для визуального извлечения документов

    Внедрение многомодальной модели Nomic Модель Nomic Embed Multimodal предлагает компании новые возможности для улучшения обработки документов. Она позволяет эффективно извлекать информацию как из текста, так и из изображений, что значительно упрощает рабочие процессы.…

  • Многоходовое Внимание: Революция в Понимании Языковых Моделей

    Введение в механизмы внимания в языковых моделях Языковые модели (LLMs) активно используют механизмы внимания для эффективного извлечения контекстной информации. Однако традиционные методы внимания ограничены однотокеновым вниманием, что может затруднять понимание сложных языковых зависимостей.…

  • Amazon Nova Act: Революция в автоматизации веб-задач

    Введение в Amazon Nova Act Amazon представил революционную модель ИИ под названием Nova Act, предназначенную для автоматизации различных веб-задач. Этот ИИ-агент может автоматизировать процессы, такие как заполнение форм, навигация по интерфейсу и управление…

  • Руководство для начинающих по терминалу и командной строке: основные команды и советы

    Практические бизнес-решения с использованием Terminal/Command Prompt Введение Terminal и Command Prompt – это мощные инструменты для взаимодействия с компьютерами, которые могут значительно повысить производительность и эффективность в бизнесе. Преимущества использования Terminal/Command Prompt Эффективная…

  • Гибридная система вознаграждений ByteDance: улучшение RLHF с помощью RTV и GenRM

    Введение в Гибридную Систему Наград в ИИ Недавнее исследование от ByteDance представляет значительное достижение в области искусственного интеллекта через гибридную систему наград. Эта система объединяет Проверяющие Задачи Размышления (RTV) и Генеративную Модель Наград…

  • Революционная платформа AI для интеграции рассуждений и поиска

    Введение в ReSearch: Прогрессивная AI-структура Обзор ReSearch ReSearch представляет собой продвинутую структуру, которая обучает большие языковые модели (LLM) комбинировать рассуждения с поиском с помощью обучения с подкреплением, устраняя необходимость в контролируемых данных для…

  • Использование Git и Git Bash: Руководство для бизнеса

    Бизнес-преобразование с помощью Git и искусственного интеллекта Введение Использование Git и Git Bash может значительно улучшить управление проектами. Эти инструменты позволяют командам отслеживать изменения кода и эффективно сотрудничать, что значительно повышает производительность бизнеса.…

  • Создание инструмента для анализа рентгеновских снимков с открытым исходным кодом

    Создание инструмента для оценки рентгеновских снимков с открытым исходным кодом Практические бизнес-решения Создание прототипа инструмента для оценки рентгеновских снимков может значительно улучшить процессы диагностики и повысить качество обслуживания клиентов в медицинских учреждениях. Использование…

  • Увеличение разнообразия креативного письма с помощью DPO и ORPO в ИИ моделях

    Улучшение креативного письма с помощью ИИ: Практические решения для бизнеса Понимание проблемы креативного письма в ИИ Креативное письмо требует разнообразия и воображения, что представляет собой уникальную задачу для систем искусственного интеллекта (ИИ). В…

  • Оценка юридических ответов на соответствие GDPR с помощью платформы Atla

    Оценка юридических ответов для соблюдения GDPR с помощью платформы Atla Обзор Данный гид описывает практический подход к оценке качества юридических ответов, сгенерированных языковыми моделями, с использованием платформы Atla и Python SDK. Наша цель…

  • VideoMind: Прорыв в понимании видео с помощью ИИ

    Видеоминд: Применение AI для понимания видео Видеоминд представляет собой значительное достижение в области искусственного интеллекта, особенно в понимании видео. Этот инновационный подход решает уникальные задачи анализа видеоконтента. Понимание задач видеоконтента Видеоматериалы более сложны…

  • Hostinger Horizons: Создавайте веб-приложения без кода с помощью ИИ

    Практические бизнес-решения с использованием Hostinger Horizons Hostinger Horizons предлагает уникальные возможности для бизнеса благодаря своей платформе без кода, которая упрощает создание веб-приложений. Вот как это может улучшить бизнес и реальную жизнь: Преимущества использования…

  • Hunyuan-T1: Революция в Искусственном Интеллекте для Бизнеса

    Практические бизнес-решения Преобразование рабочих процессов Искусственный интеллект может значительно улучшить бизнес-операции. Вот практические шаги, которые стоит рассмотреть: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. 2. Улучшите взаимодействие с…

  • FFN Fusion от NVIDIA: Революция в эффективности больших языковых моделей

    Введение в большие языковые модели Большие языковые модели (LLMs) становятся все более важными в различных секторах, обеспечивая работу приложений, таких как генерация естественного языка и разговорные агенты. Однако с увеличением размера и сложности…