ESM3: новая многофункциональная модель языка для анализа белков

 EvolutionaryScale Introduces ESM3: A Frontier Multimodal Generative Language Model that Reasons Over the Sequence, Structure, and Function of Proteins

“`html

ESM3: Революционная мультимодальная генеративная языковая модель, которая анализирует последовательность, структуру и функцию белков

Более трех миллиардов лет естественная эволюция тщательно формировала белки, которые мы видим сегодня. С помощью бесчисленных случайных мутаций и селективных давлений природа создала эти белки, отражая глубокие биологические принципы, управляющие жизнью. Современное секвенирование генов раскрывает огромное разнообразие последовательностей и структур белков, раскрывая закономерности, созданные эволюционными силами. Исследователи все чаще используют большие языковые модели для расшифровки этого “языка белков”, открывая, что эти модели, даже без специального обучения на биологические функции, естественно учатся представлять структуры и функции белков, их возможности значительно расширяются при увеличении сложности и объема данных.

Практические решения и ценность

Исследователи из Evolutionary Scale PBC, Arc Institute и Университета Калифорнии разработали ESM3 – передовую генеративную языковую модель для белков. ESM3 может имитировать эволюционные процессы, создавая функциональные белки, существенно отличающиеся от известных. Он интегрирует последовательность, структуру и функцию для создания белков по сложным запросам. Особенно стоит отметить, что ESM3 создал новый флуоресцентный белок esmGFP, который отличается на 58% от любых известных флуоресцентных белков – степень различия, сравнимая с 500 миллионами лет естественной эволюции. Этот прорыв демонстрирует потенциал ESM3 в инженерии белков, предлагая креативные решения для биологических задач.

ESM3 – это сложная генеративная языковая модель, разработанная для понимания и прогнозирования последовательности, структуры и функции белков с использованием токенизированных данных. Он использует подход маскированного языкового моделирования для предсказания маскированных частей данных о белках при различных уровнях маскирования. ESM3 интегрирует последовательность, структуру и функцию в единое латентное пространство и обрабатывает эти модальности через блоки трансформаторов с геометрическим вниманием. Обученный на обширных наборах данных, включая 2,78 миллиарда белков и 236 миллионов структур, ESM3 масштабируется до 98 миллиардов параметров. Его метод токенизации эффективно захватывает атомные детали, обеспечивая высокую точность в создании и восстановлении структур белков.

ESM3, языковая модель с до 98 миллиардами параметров, эффективно предсказывает и создает последовательности, структуры и функции белков. Он обрабатывает эти аспекты через блоки трансформаторов с геометрическим вниманием, обучаясь на обширных натуральных и синтетических наборах данных о белках. Генеративные возможности ESM3 позволяют ему создавать разнообразные высококачественные белки, существенно отличающиеся от известных естественных белков. Он отлично справляется с выполнением запросов из различных источников, таких как последовательности или структурные детали, и может инновировать в этих рамках, создавая новые дизайны белков. Эта универсальность облегчает продвинутый, программируемый дизайн белков и исследование за пределами естественных эволюционных закономерностей.

Масштабирование и настройка моделей ESM3 значительно улучшают их способность создавать белки, соответствующие сложным запросам, таким как конкретная атомная координация и структурные мотивы. Хотя базовые модели, обученные на обширных наборах данных о белках, показывают хорошие результаты, настройка с предпочтительными данными – сопоставление высококачественных и низкокачественных результатов – раскрывает скрытые возможности. Это выравнивание, особенно в более крупных моделях, удваивает успешность создания точных структур белков и увеличивает разнообразие успешных решений. Этот процесс демонстрирует, что более крупные модели обладают большей врожденной способностью к адаптации к сложным задачам, показывая улучшенную производительность при выравнивании с конкретными целями.

ESM3, языковая модель, обученная на последовательностях белков, создала зеленый флуоресцентный белок (GFP) с минимальной схожестью с существующими. Подав модели критические остатки и структуры, необходимые для функционирования GFP, ESM3 создал тысячи потенциальных дизайнов. Из них был выделен уникальный флуоресцентный белок esmGFP, существенно отличающийся от известных белков и обладающий естественной флуоресценцией, схожей с GFP. Этот процесс повторяет эволюционные пути, указывая на то, что ESM3 может исследовать пространства белков, которые эволюция еще не исследовала, эффективно имитируя миллионы лет эволюционного потенциала в создании новых функциональных белков.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект