Бывшие ученые Мета запускают масштабную модель дизайна белка искусственного интеллекта

Структурная модель зеленого флуоресцентного белка, рабочей лошадки биотехнологий.Авторы: Laguna Design/Библиотека научных фотографий.

Модель искусственного интеллекта (ИИ), говорящая на языке белков – одна из крупнейших, когда-либо разработанных для биологии – была использована для создания новых флуоресцентных молекул.

В этом месяце компания EvolutionaryScale в Нью-Йорке объявила о подтверждении концепции, а также о выделении 142 миллионов долларов нового финансирования для применения ее модели в разработке лекарств, устойчивом развитии и других видах деятельности. Компания, основанная учеными, ранее работавшими в технологическом гиганте Meta, является последним участником во все более насыщенной области, которая применяет передовые модели машинного обучения, обученные на языке и изображениях, к биологическим данным.

«Мы хотим создать инструменты, которые сделают биологию программируемой», — говорит Алекс Райвс, главный научный сотрудник компании, который участвовал в усилиях Meta по применению ИИ к биологическим данным.

Инструмент искусственного интеллекта EvolutionaryScale, называемый ESM3, представляет собой так называемую модель белкового языка. Он был обучен более чем 2,7 миллиардам белковых последовательностей и структур, а также информации, связанной с функциями этих белков. Модель можно использовать для создания белков в соответствии со спецификациями, предоставленными пользователями, аналогично тексту, создаваемому чат-ботами, такими как ChatGPT.

«Это будет одна из моделей ИИ в биологии, на которую все обратят внимание», — говорит Энтони Гиттер, вычислительный биолог из Университета Висконсин-Мэдисон.

Светить

Райвс и его коллеги работали над более ранними версиями модели ESM в Meta, но в прошлом году отказались от нее, после того как Meta завершила свою работу в этой области. Ранее они использовали модель ESM-2 для создания базы данных с открытым доступом, содержащей 600 миллионов предсказанных белковых структур.1. С тех пор другие команды использовали версии ESM-1 для создания антител с повышенной активностью против патогенов, включая SARS-CoV-2.2 и переосмыслить белки «анти-CRISPR», чтобы повысить эффективность инструментов редактирования генов.3.

ЧИТАТЬ  Рик Оуэнс: черные куртки и доисторические рога

В этом году другая компания по биологическому искусственному интеллекту, Profluent из Беркли, Калифорния, использовала свою собственную модель белкового языка для создания новых белков для редактирования генов на основе CRISPR и сделала одну из этих молекул доступной бесплатно.

Чтобы продемонстрировать свою последнюю модель, команда Ривса решила пересмотреть еще один рабочий инструмент биотехнологии: зеленый флуоресцентный белок (GFP), который поглощает синий свет и светится зеленым. Исследователи выделили GFP в 1960-х годах из биолюминесцентной медузы. Равная победа. Последующая работа, которая вместе с открытием была удостоена Нобелевской премии, показала, как GFP может маркировать другие белки, наблюдаемые под микроскопом, объяснила молекулярную основу его флуоресценции и разработала синтетические версии белка, которые светились гораздо ярче и по-другому. цвета.

С тех пор исследователи идентифицировали другие флуоресцентные белки сходной формы, все они имеют светопоглощающее и излучающее «хромофорное» ядро, окруженное бочкообразным каркасом. Команда Райвса попросила ESM3 создать примеры GFP-подобных белков, содержащих набор ключевых аминокислот, обнаруженных в хромофоре GFP.

Исследователи синтезировали 88 наиболее многообещающих моделей и измерили их способность излучать флуоресценцию. Большинство из них были бесполезными, но одна модель, отличавшаяся от известных флуоресцентных белков, светилась тускло — примерно в 50 раз тусклее, чем естественные формы GFP. Используя последовательность этой молекулы в качестве отправной точки, исследователи попросили ESM3 улучшить ее работу. Когда исследователи создали около 100 полученных моделей, некоторые из них были такими же яркими, как естественные GFP, которые всегда намного тусклее, чем варианты, разработанные в лаборатории.

Ожидается, что один из самых ярких белков, созданных с помощью ESM3, называемый esmGFP, будет иметь структуру, напоминающую структуру природных флуоресцентных белков. Однако его аминокислотная последовательность сильно отличается и соответствует менее чем на 60% последовательности ближайшего флуоресцентного белка в наборе обучающих данных. В препринте, опубликованном на сервере bioRxiv.4Райвс и его коллеги говорят, что, исходя из естественной скорости мутаций, такой уровень различия последовательностей соответствует «более 500 миллионам лет эволюции».

ЧИТАТЬ  Мета-лучевые банки теперь доступны в новом дизайне ограниченной серии

Но Гиттер обеспокоен тем, что это сравнение является ненужным и потенциально вводящим в заблуждение способом описания продукта передовой модели искусственного интеллекта. «Когда думаешь об ИИ и ускорении эволюции, это кажется пугающим», — говорит он. «Я чувствую, что переоценка возможностей модели может нанести вред отрасли и быть опасной для общества. »

Райвс считает, что генерация новых белков с помощью ESM3 путем итерации различных последовательностей аналогична эволюции. «Мы думаем, что перспектива того, что потребуется природе для создания чего-то подобного, интересна», — добавляет он.

Порог риска

ESM-3 — одна из первых моделей биологического искусственного интеллекта, которая использует достаточную вычислительную мощность во время обучения, чтобы потребовать от разработчиков информировать правительство США и сообщать о мерах по снижению рисков, согласно распоряжению EvolutionaryScale от 2023 года, которое, как утверждается, уже связалось с EvolutionaryScale. Управление по науке и технологической политике США.

Версия ESM3, преодолевшая этот порог, включая почти 100 миллиардов параметров или переменных, которые модель использует для представления отношений между последовательностями, не является общедоступной. В уменьшенной версии с открытым исходным кодом некоторые последовательности, например, из вирусов и вызывающих обеспокоенность патогенов и токсинов из списка правительства США, были исключены из обучения. ESM3-open, который ученые всего мира могут загрузить и запустить независимо, также нельзя просить создать такие белки.

Мартин Пачеса, структурный биолог из Федеральной политехнической школы Лозанны, рад начать работу с ESM3. Он отмечает, что это одна из первых биологических моделей, которая позволяет исследователям определять конструкции, используя описания их свойств и функций на естественном языке, и ему очень хочется увидеть, как эта и другие характеристики ведут себя экспериментально.

ЧИТАТЬ  Как отделать ванную в «убитой» вторичной постройке — INMYROOM

Пачеса впечатлен тем, что EvolutionaryScale выпустила версию ESM3 с открытым исходным кодом и четкое описание того, как обучалась более крупная версия. Но независимая разработка более крупной модели потребует огромных вычислительных ресурсов, говорит он. «Ни одна университетская лаборатория не сможет это воспроизвести. »

Ривс стремится применить ESM-3 к другим разработкам. Пачеса, который был частью команды, которая использовала другую модель белкового языка для создания новых белков CRISPR, говорит, что будет интересно посмотреть, как поведет себя ESM-3. Райвс видит возможности применения в области устойчивого развития (видео на его веб-сайте демонстрирует конструкцию ферментов, пожирающих пластик), а также в разработке антител и других белковых лекарств. «Это действительно современная модель», — говорит он.

Source

Оцените статью
Своими руками