Геномное селекционирование и глубокое обучение: Революционный подход к селекции растений
Селекция растений играет ключевую роль в обеспечении стабильного питания растущего мирового населения. Для эффективного удовлетворения растущего спроса на продукты питания необходимо достичь высоких темпов генетического прогресса. Геномное селекционирование – мощный инструмент, использующий геномные вариации и фенотипические данные для прогнозирования производительности неизвестных особей. Эмпирические исследования демонстрируют превосходство геномного селекционирования над традиционными методами, увеличивая селекционные достижения и сокращая циклы селекции в различных культурах.
Глубокие архитектуры обучения: Геномная перспектива
Недавние достижения в глубоких архитектурах обучения позволяют более эффективно и точно обрабатывать биологические данные. Сверточные нейронные сети (CNN) успешно выявляют геномные мотивы, а рекуррентные нейронные сети (RNN) обрабатывают последовательные данные, такие как ДНК-последовательности. Автоэнкодеры, включая вариационные автоэнкодеры (VAE), ценны для извлечения признаков и снижения размерности. Новые архитектуры, такие как гибридные модели, объединяющие CNN и RNN, эффективно решают специфические геномные задачи. Трансформаторные LLM, такие как GPT, преодолевают ограничения CNN и RNN путем эффективной обработки длинных последовательностей и улавливания глобальных зависимостей.
Геномные приложения
Глубокое обучение – мощный инструмент в различных геномных приложениях, включая характеристику экспрессии генов, регуляторную геномику, функциональную геномику и структурную геномику. В характеристике экспрессии генов глубокие модели обучения, такие как автоэнкодеры и вариационные автоэнкодеры, применяются для извлечения признаков из данных экспрессии генов, позволяя понять биологические процессы и улучшая производительность в задачах, таких как кластеризация и прогнозирование.
Материалы и методы
Исследование использовало два набора данных из проекта 1000 геномов, состоящих из 10 000 и 65 535 однонуклеотидных полиморфизмов (SNP) на конкретных хромосомных регионах. Они обучали генеративные модели, включая Wasserstein GAN с градиентным штрафом (WGAN-GP), Restricted Boltzmann Machines (RBM) и вариационные автоэнкодеры (VAE) для генерации искусственных геномных последовательностей.