Новый метод искусственного интеллекта для генетических открытий
Высокоразмерные клинические данные (HDCD) представляют собой наборы данных в области здравоохранения, где количество переменных (или признаков) значительно превышает количество пациентов (или наблюдений). При увеличении количества переменных пространство данных растет экспоненциально, требуя значительных вычислительных ресурсов, что затрудняет их обработку и анализ. Кроме того, модели, построенные на высокоразмерных данных, могут быть сложными для интерпретации, затрудняя клиническое принятие решений.
Исследователи GoogleAI решают проблему использования высокоразмерных клинических данных (HDCD), таких как спирограммы, фотоплетизмограммы (PPG) и изображения, для генетических открытий и прогнозирования заболеваний. Текущие методы в геномных исследованиях часто включают ассоциационные исследования по всему геному (GWAS) на экспертно определенных признаках, извлеченных из HDCD, или непосредственно на высокоразмерных координатах данных. Однако такие подходы сталкиваются с проблемами, такими как вычислительные затраты, высокая нагрузка от множественного тестирования и ограниченная способность выявления сложных генетических ассоциаций.
REGLE: новый подход к генетическим открытиям
Google предлагает новый подход под названием REpresentation Learning for Genetic discovery on Low-dimensional Embeddings (REGLE), который разработан для преодоления этих ограничений. REGLE использует методы обучения представлений без учителя для преобразования HDCD в низкоразмерные вложения без необходимости использования меток болезней. Этот метод интегрирует экспертно определенные признаки (EDF), где это возможно, и позволяет более эффективный и всесторонний генетический анализ.
REGLE использует вариационный автокодировщик (VAE) для изучения нелинейных, низкоразмерных, дифференцированных представлений HDCD. Процесс включает три основных шага: изучение вложений HDCD через VAE, проведение GWAS на этих вложениях для выявления генетических ассоциаций и создание полигенных оценок риска (PRS) из вложений для прогнозирования конкретных заболеваний или черт, возможно, используя несколько меток болезней. Метод был проверен на двух типах HDCD – спирограммах и PPG и продемонстрировал значительные улучшения. REGLE обнаружил новые генетические локусы, связанные с функциями легких и сердца, которые не были выявлены традиционными методами. Например, REGLE нашел на 45% больше значимых локусов для данных PPG и улучшил прогнозирование риска для заболеваний, таких как ХОБЛ и астма, по сравнению с методами, основанными на EDF или анализе главных компонент (PCA). Вложения также предоставили интерпретируемые результаты, выявив признаки, такие как нарушение дыхания, которые не хорошо представлены стандартными EDF.
В заключение, метод REGLE предоставляет надежное решение для генетического анализа с использованием высокоразмерных клинических данных, позволяя обнаруживать скрытые генетические сигналы и улучшать прогнозирование заболеваний. Путем устранения необходимости обширных меток болезней и включения экспертных признаков REGLE эффективно решает ограничения традиционных методов. Исследователи продемонстрировали, что улучшения в обнаружении новых локусов и прогнозировании риска подчеркивают потенциал REGLE для продвижения геномных исследований и улучшения персонализированной медицины через более всесторонний анализ HDCD.