Язык структурирования: богатые модели искусственного интеллекта развиваются в сторону точного и управляемого дизайна белка

«Момент ChatGPT» для биологии продолжает развиваться, поскольку модели белкового языка или инструменты машинного обучения, обученные на больших базах данных белковых последовательностей, работают над декодированием языка жизни с целью создания новых белков для широкого применения в терапевтических областях, устойчивом развитии, и т. д. Profluent, компания по разработке белков искусственного интеллекта (ИИ), базирующаяся в Беркли, Калифорния, теперь сделала еще один шаг к управляйте этими моделями для конкретных функциональных задач с контролем на атомистическом уровне.

«В настоящее время проведена большая работа по разработке фундаментальных моделей биологии в целом», сказал Али Мадани, доктор философии, генеральный директор Profluent, в интервью изданию ОБЩ Край. «Как мы можем научить эти большие генеративные модели учиться на базовых моделях, которые предоставила нам природа? »

В предварительная печать Опубликованный на bioRxiv, Profluent представляет новый метод, который теперь объединяет структурный и функциональный контекст с моделями белкового языка для условного проектирования. Экспериментально подтверждена эффективность этого подхода, получившего название «языковая модель, кодируемая структурой белка» (proseLM), в улучшении активности редактирования генов и аффинности связывания терапевтических антител — двух сложных задач проектирования функциональных белков, имеющих широкое применение в биотехнологических исследованиях.

«Мы отходим от методов, основанных на открытиях, и переходим к точному, управляемому контролю и целенаправленному проектированию для решения проблем, с которыми мы сталкиваемся в современном обществе», — сказал Мадани.

Представление разнообразных пространств белковых последовательностей, фиксируемых моделями белкового языка, а затем объединенных со структурным и функциональным контекстом для проектирования с помощью proseLM. [Credit: Profluent]

Джеффри Руффоло, доктор философии, ведущий автор препринта proseLM и руководитель отдела дизайна белков в Profluent, сказал, что команда стремилась оценить, насколько proseLM отличается от традиционных подходов, таких как направленная эволюция или ручная оптимизация в случае антител.

«Мы обнаружили, что даже с помощью всего лишь одного раунда оптимизации мы можем сравниться с некоторыми из лучших основных редакторов. Для антител мы можем даже добиться лучшего связывания, чем ниволумаб, «Это клинически одобренное терапевтическое антитело», — сказал Руффоло. ОБЩ Край.

ЧИТАТЬ  Дашиэлл Фризен Студенты Дизайна управляют руководителями с инициативой передачи сигналов REM - Университет Конкордии

В proseLM структурная и функциональная информация, включая небелковые взаимодействия с нуклеиновыми кислотами, лигандами и ионами, передается в предварительно обученную языковую модель через набор дополнительных слоев, называемых адаптерами. Примечательно, что эти уровни адаптеров имеют гораздо меньше параметров по сравнению с языковой моделью, что делает эти модели эффективными для обучения и запуска.

К более широким функциональным возможностям

Profluent запустил стартовый раунд финансирования в размере 9 миллионов долларов в 2023 году и получил дополнительное финансирование в размере 35 миллионов долларов в 2024 году. Компания была основана на принципе искусственного интеллекта как инструмента для расшифровки языка жизни, чтобы поддержать сдвиг парадигмы в белковой инженерии от случайного открытия к намеренному дизайну. Мадани, который до основания Profluent руководил исследовательскими инициативами в области машинного обучения в Salesforce Research, подчеркивает масштабируемый подход компании к проектированию белков, который изучает закономерности на основе эволюционировавших естественных последовательностей для аналогичных функций, чтобы информировать пространство дизайна.

Profluent ориентирует свою платформу дизайна на CRISPR и редактирование генов. В апреле компания успешно продемонстрировала точное редактирование с помощью программируемого редактора генов, разработанного с использованием искусственного интеллекта, под названием OpenCRISPR-1. OpenCRISPR-1 был публично выпущен для широкого и этического использования в исследовательских и коммерческих приложениях. ProseLM теперь расширяет набор инструментов Profluent от проектирования в рамках специализированных семейств белков до более широкой функциональности.

Profluent — не единственный игрок, использующий лингвистические модели для проектирования белков. Ранее этим летом EvolutionaryScale, компания по биологическому искусственному интеллекту, основанная бывшими исследователями Meta AI, вышла из укрытия с раундом финансирования в 142 миллиона долларов и объявила ЕСМ3языковая модель, которая, как было обнаружено, генерирует новый зеленый флуоресцентный белок (GFP), сходный только на 58% с ближайшим известным флуоресцентным белком.

ЧИТАТЬ  Вот что вам нужно знать о кандидатах на Оскар 2025 года для лучшего дизайна костюма

Две стороны одной медали

Эволюционные подходы к проектированию белков контрастируют с методами, основанными на структуре, где задана структура белка, и цель состоит в том, чтобы найти последовательность, которая сворачивается в структуру. Алгоритмы проектирования на основе структуры часто требуют явных инструкций для определения функции, что обеспечивает более точный контроль.

«[In structure-based approaches]«Если вы хотите, чтобы белок связался с мишенью, вам нужно выяснить, как именно будет выглядеть его структура», — сказал Руффоло. «Это ограничивает возможности таких приложений, как редакторы генов, где у вас есть большие белки, которые выполняют множество различных функций, которые им необходимо последовательно выполнять. »

Руффоло описывает эти два подхода как «две стороны одной медали». В то время как одна сторона предполагает «чтение» биологии путем определения последовательности и определения структуры, другая сторона предполагает «написание» биологии путем создания нового белка, который вписывается в определенный контекст.

«[With proseLM]«Мы можем использовать точный контроль подходов, основанных на структуре, и широкий спектр подходов, основанных на последовательностях, чтобы изучить лучшее из обоих миров», — продолжил Руффоло.

ProseLM является примером продолжающейся эволюции этой области: от проектирования белков в вакууме к более широкой интеграции биологического контекста. В мае Google DeepMind в сотрудничестве с Isomorphic Labs выпустила АльфаФолд 3 В Природа. Это обновление расширяет прогностические возможности популярного алгоритма прогнозирования структуры белков на белки, распространяя их на широкий спектр биомолекулярных взаимодействий, включая ДНК, РНК, лиганды и многое другое. К разочарованию общественности, AlphaFold 3 был выпущен без открытого исходного кода и доступен только как веб-сервер с ограниченной функциональностью.

Мадани сказал, что proseLM оказался мощным инструментом в руках компании и станет важным дополнением к набору инструментов Profluent в будущем. Profluent публикует proseLM для некоммерческого использования и ждет отзывов сообщества. Время покажет, какие приложения найдут применение в следующей главе благодаря этому новому инструменту для написания языка биологии.

ЧИТАТЬ  На премию IPI Award 2023 закрыты заявки

Фэй Лин, доктор философии, главный редактор журнала ОБЩ Биотехнология.



Source

Оцените статью
Своими руками