Вся жизнь на Земле записана четырьмя «буквами» ДНК. ИИ только что использовал эти буквы, чтобы с нуля создать совершенно новый геном.
Называется ЭвоИИ черпал вдохновение из больших языковых моделей, или LLM, которые лежат в основе популярных чат-ботов, таких как ChatGPT от OpenAI и Claude от Anthropic. Эти модели покорили мир своим умением генерировать реакции, подобные человеческим. От простых задач, таких как определение непонятного слова, до резюмирования научных статей и написания стихов, достойных рэп-баттла, LLM вошли в нашу повседневную жизнь.
Если студенты магистратуры могут освоить письменные языки, смогут ли они сделать то же самое с языком жизни?
В этом месяце команда из Стэнфордского университета и Института дуги проверила эту теорию. Вместо того, чтобы обучать Evo на контенте, взятом из Интернета, они обучили ИИ почти трем миллионам геномов (миллиардам строк генетического кода) различных микробов и вирусов, заражающих бактерии.
Evo лучше, чем предыдущие модели искусственного интеллекта, предсказывал, как мутации в генетическом материале – ДНК и РНК – могут изменить функцию. ИИ также проявил креативность, разработав несколько новых компонентов для инструмента редактирования генов CRISPR. Еще более впечатляюще то, что ИИ создал геном длиной более мегабазы, что примерно соответствует размеру некоторых бактериальных геномов.
«В целом, Evo представляет собой базовую геномную модель», написал Кристина Теодорис из Института Гладстона в Сан-Франциско, не принимавшая участия в работе.
Изучив геномный словарь, такие алгоритмы, как Evo, могут помочь ученым исследовать эволюцию, расшифровать внутреннюю работу наших клеток, разгадать биологические загадки и ускорить синтетическую биологию, создавая новые сложные биомолекулы.
Мультивселенная ДНК
По сравнению с 26 буквами английского алфавита, ДНК состоит только из A, T, C и G. Эти «буквы» обозначают четыре молекулы: аденин (А), тимин (Т), цитозин (С) и гуанин (G). ). ) — которые в совокупности определяют наши гены. Если студенты магистратуры смогут покорить языки и создать новую прозу, переписать учебник по генетике всего четырьмя буквами станет детской игрой.
Не совсем. Человеческий язык состоит из слов, фраз и перемежается фразами для передачи информации. ДНК, с другой стороны, более непрерывна, а генетические компоненты сложны. Одни и те же буквы ДНК несут «параллельные нити информации», писал Теодорис.
Наиболее известна роль ДНК как генетического носителя. Определенная комбинация трех букв ДНК, называемая кодоном, кодирует строительный блок белка. Они сгруппированы в белки, которые составляют наши ткани, наши органы и управляют внутренним функционированием наших клеток.
Но одна и та же генетическая последовательность, в зависимости от ее структуры, может также рекрутировать молекулы, необходимые для преобразования кодонов в белки. А иногда одни и те же буквы ДНК могут превратить ген в разные белки в зависимости от состояния клетки и окружающей среды или даже отключить ген.
Другими словами, буквы ДНК содержат массу информации о сложности генома. Любое изменение может поставить под угрозу функцию белка, что приведет к генетическим заболеваниям и другим проблемам со здоровьем. Поэтому очень важно, чтобы ИИ работал над распознаванием уникальных букв ДНК.
Но ИИ сложно захватывать несколько крупномасштабных информационных потоков, анализируя только генетические буквы, отчасти из-за высоких вычислительных затрат. Как и древнеримские письмена, ДНК представляет собой набор букв без четкой пунктуации. Таким образом, может потребоваться «прочитать» целые нити, чтобы получить общее представление об их структуре и функциях, то есть расшифровать их значение.
Предыдущий попытки иметь Буквы ДНК «группируются» в блоки, как если бы мы создавали искусственные слова. Хотя эти методы проще в обработке, они нарушают непрерывность ДНК, что приводит к сохранению «одних потоков информации за счет других», пишет Теодорис.
Строительные фундаменты
Evo сразу же решил эти проблемы. Его разработчики стремились сохранить все информационные потоки, работая при этом с разрешением одной буквы ДНК и меньшими вычислительными затратами.
Хитрость заключалась в том, чтобы дать Evo более широкий контекст для любой части генома, используя определенный тип конфигурации ИИ используется в семействе алгоритмов StripeHyena. По сравнению с GPT-4 и другими моделями искусственного интеллекта, StripedHyena спроектирована так, чтобы быстрее и лучше обрабатывать большие входные данные, например длинные фрагменты ДНК. Это расширило «окно поиска» Evo, позволив ему лучше находить закономерности в более широком генетическом ландшафте.
Затем исследователи обучили ИИ на базе данных, содержащей почти три миллиона геномов бактерий и вирусов, которые заражают бактерии, называемые фагами. Он также узнал о плазмидах — кольцевых фрагментах ДНК, часто встречающихся у бактерий, которые передают генетическую информацию между микробами, стимулируя эволюцию и сохраняя устойчивость к антибиотикам.
После обучения команда сравнила Evo с другими моделями искусственного интеллекта, чтобы предсказать, как мутации в данной генетической последовательности могут повлиять на функцию этой последовательности, например, на кодирование белка. Хотя так и не было выяснено, какие генетические буквы образуют кодоны, Evo превзошел специально обученную модель ИИ в распознавании букв ДНК, кодирующих белок, в этой задаче.
Примечательно, что Эво также предсказал влияние мутаций на широкий спектр молекул РНК, например, на те, которые регулируют экспрессию генов, транспортируют строительные блоки белка на фабрику по производству белка в клетке и действуют как ферменты для точной настройки функции белка.
Эво, похоже, обрел «фундаментальное понимание грамматики ДНК», писал Теодорис, что сделало ее идеальным инструментом для создания «значимого» нового генетического кода.
Чтобы проверить это, команда использовала ИИ для разработки новых версий инструмента редактирования генов CRISPR. Задача особенно сложна, поскольку система содержит два элемента, которые работают вместе: направляющую молекулу РНК и пару белковых «ножниц», называемых Cas. Evo создал миллионы потенциальных Cas-белков и сопровождающих их направляющих РНК. Команда отобрала 11 наиболее перспективных комбинаций, синтезировала их в лаборатории и проверила их активность в пробирках.
Один из них выделялся. Вариант Cas9, белок, разработанный AI, расщепляет свою ДНК-мишень, когда он связан со своим партнером-гидом РНК. Эти дизайнерские биомолекулы представляют собой «первые примеры» совместного проектирования белков и ДНК или РНК с языковой моделью, пишет команда.
Команда также попросила Эво создать последовательность ДНК, аналогичную по длине геномам некоторых бактерий, и сравнила результаты с природными геномами. Геном дизайнера содержал некоторые гены, необходимые для выживания клеток, но с множеством неестественных особенностей, не позволяющих ему функционировать. Это говорит о том, что ИИ может создать только «нечеткую картину» генома, которая содержит ключевые элементы, но не имеет более мелких деталей, пишет команда.
Как и другие LLM, Evo иногда «галлюцинирует», выплевывая системы CRISPR без шансов на работу. Несмотря на проблемы, ИИ предполагает, что будущие LLM смогут предсказывать и генерировать геномы в более крупных масштабах. Этот инструмент также может помочь ученым изучить долгосрочные генетические взаимодействия между микробами и фагами, что может привести к лучшему пониманию того, как мы можем перепрограммировать их геномы для производства биотоплива, насекомых, питающихся пластиком, или лекарств.
Пока неизвестно, сможет ли Эво расшифровать или генерировать гораздо более длинные геномы, например геномы растений, животных или человека. Однако, если бы модель могла развиваться, она «имела бы огромные диагностические и терапевтические последствия для болезни», написал Теодорис.
Изображение предоставлено: Уоррен Умо на Unsplash