«Момент ChatGPT» для биологии продолжает развиваться, поскольку модели белкового языка или инструменты машинного обучения, обученные на больших базах данных белковых последовательностей, работают над декодированием языка жизни с целью создания новых белков для широкого применения в терапевтических областях, устойчивом развитии, и т. д. Profluent, компания по разработке белков искусственного интеллекта (ИИ), базирующаяся в Беркли, Калифорния, теперь сделала еще один шаг к управляйте этими моделями для конкретных функциональных задач с контролем на атомистическом уровне.
«В настоящее время проведена большая работа по разработке фундаментальных моделей биологии в целом», сказал Али Мадани, доктор философии, генеральный директор Profluent, в интервью изданию ОБЩ Край. «Как мы можем научить эти большие генеративные модели учиться на базовых моделях, которые предоставила нам природа? »
В предварительная печать Опубликованный на bioRxiv, Profluent представляет новый метод, который теперь объединяет структурный и функциональный контекст с моделями белкового языка для условного проектирования. Экспериментально подтверждена эффективность этого подхода, получившего название «языковая модель, кодируемая структурой белка» (proseLM), в улучшении активности редактирования генов и аффинности связывания терапевтических антител — двух сложных задач проектирования функциональных белков, имеющих широкое применение в биотехнологических исследованиях.
«Мы отходим от методов, основанных на открытиях, и переходим к точному, управляемому контролю и целенаправленному проектированию для решения проблем, с которыми мы сталкиваемся в современном обществе», — сказал Мадани.
Джеффри Руффоло, доктор философии, ведущий автор препринта proseLM и руководитель отдела дизайна белков в Profluent, сказал, что команда стремилась оценить, насколько proseLM отличается от традиционных подходов, таких как направленная эволюция или ручная оптимизация в случае антител.
«Мы обнаружили, что даже с помощью всего лишь одного раунда оптимизации мы можем сравниться с некоторыми из лучших основных редакторов. Для антител мы можем даже добиться лучшего связывания, чем ниволумаб, «Это клинически одобренное терапевтическое антитело», — сказал Руффоло. ОБЩ Край.
В proseLM структурная и функциональная информация, включая небелковые взаимодействия с нуклеиновыми кислотами, лигандами и ионами, передается в предварительно обученную языковую модель через набор дополнительных слоев, называемых адаптерами. Примечательно, что эти уровни адаптеров имеют гораздо меньше параметров по сравнению с языковой моделью, что делает эти модели эффективными для обучения и запуска.
К более широким функциональным возможностям
Profluent запустил стартовый раунд финансирования в размере 9 миллионов долларов в 2023 году и получил дополнительное финансирование в размере 35 миллионов долларов в 2024 году. Компания была основана на принципе искусственного интеллекта как инструмента для расшифровки языка жизни, чтобы поддержать сдвиг парадигмы в белковой инженерии от случайного открытия к намеренному дизайну. Мадани, который до основания Profluent руководил исследовательскими инициативами в области машинного обучения в Salesforce Research, подчеркивает масштабируемый подход компании к проектированию белков, который изучает закономерности на основе эволюционировавших естественных последовательностей для аналогичных функций, чтобы информировать пространство дизайна.
Profluent ориентирует свою платформу дизайна на CRISPR и редактирование генов. В апреле компания успешно продемонстрировала точное редактирование с помощью программируемого редактора генов, разработанного с использованием искусственного интеллекта, под названием OpenCRISPR-1. OpenCRISPR-1 был публично выпущен для широкого и этического использования в исследовательских и коммерческих приложениях. ProseLM теперь расширяет набор инструментов Profluent от проектирования в рамках специализированных семейств белков до более широкой функциональности.
Profluent — не единственный игрок, использующий лингвистические модели для проектирования белков. Ранее этим летом EvolutionaryScale, компания по биологическому искусственному интеллекту, основанная бывшими исследователями Meta AI, вышла из укрытия с раундом финансирования в 142 миллиона долларов и объявила ЕСМ3языковая модель, которая, как было обнаружено, генерирует новый зеленый флуоресцентный белок (GFP), сходный только на 58% с ближайшим известным флуоресцентным белком.
Две стороны одной медали
Эволюционные подходы к проектированию белков контрастируют с методами, основанными на структуре, где задана структура белка, и цель состоит в том, чтобы найти последовательность, которая сворачивается в структуру. Алгоритмы проектирования на основе структуры часто требуют явных инструкций для определения функции, что обеспечивает более точный контроль.
«[In structure-based approaches]«Если вы хотите, чтобы белок связался с мишенью, вам нужно выяснить, как именно будет выглядеть его структура», — сказал Руффоло. «Это ограничивает возможности таких приложений, как редакторы генов, где у вас есть большие белки, которые выполняют множество различных функций, которые им необходимо последовательно выполнять. »
Руффоло описывает эти два подхода как «две стороны одной медали». В то время как одна сторона предполагает «чтение» биологии путем определения последовательности и определения структуры, другая сторона предполагает «написание» биологии путем создания нового белка, который вписывается в определенный контекст.
«[With proseLM]«Мы можем использовать точный контроль подходов, основанных на структуре, и широкий спектр подходов, основанных на последовательностях, чтобы изучить лучшее из обоих миров», — продолжил Руффоло.
ProseLM является примером продолжающейся эволюции этой области: от проектирования белков в вакууме к более широкой интеграции биологического контекста. В мае Google DeepMind в сотрудничестве с Isomorphic Labs выпустила АльфаФолд 3 В Природа. Это обновление расширяет прогностические возможности популярного алгоритма прогнозирования структуры белков на белки, распространяя их на широкий спектр биомолекулярных взаимодействий, включая ДНК, РНК, лиганды и многое другое. К разочарованию общественности, AlphaFold 3 был выпущен без открытого исходного кода и доступен только как веб-сервер с ограниченной функциональностью.
Мадани сказал, что proseLM оказался мощным инструментом в руках компании и станет важным дополнением к набору инструментов Profluent в будущем. Profluent публикует proseLM для некоммерческого использования и ждет отзывов сообщества. Время покажет, какие приложения найдут применение в следующей главе благодаря этому новому инструменту для написания языка биологии.
Фэй Лин, доктор философии, главный редактор журнала ОБЩ Биотехнология.