Достижения в разработке белковых последовательностей: использование обучения с подкреплением и лингвистических моделей

Разработка белковой последовательности имеет решающее значение в белковой инженерии для открытия лекарств. Традиционные методы, такие как эволюционные стратегии и моделирование Монте-Карло, часто нуждаются в помощи для эффективного исследования обширного комбинаторного пространства аминокислотных последовательностей и обобщения их на новые последовательности. Обучение с подкреплением предлагает многообещающий подход, заключающийся в изучении политики мутаций для создания новых последовательностей. Недавние достижения в области моделей белкового языка (PLM), обученных на больших наборах данных о последовательностях белков, открывают еще один путь. Эти модели оценивают белки на основе биологических параметров, таких как показатель TM, что облегчает проектирование белков и прогнозирование сворачивания. Эти элементы необходимы для понимания клеточных функций и ускорения усилий по разработке лекарств.

Исследователи из Университета Макгилла, Института искусственного интеллекта Мила-Квебек, ÉTS Монреаля, Университета BRAC, Бангладешского инженерно-технологического университета, Университета Калгари, CIFAR AI Chair и Dreamfold предлагают использовать PLM в качестве функций вознаграждения для генерации новых белковых последовательностей. Однако PLM могут требовать больших вычислительных ресурсов из-за своего размера. Чтобы решить эту проблему, они предлагают альтернативный подход, в котором оптимизация основана на оценках меньшей прокси-модели, периодически уточняемой параллельно с изучением политик мутаций. Их эксперименты с последовательностями различной длины демонстрируют, что подходы, основанные на обучении с подкреплением, достигают благоприятных результатов в области биологической достоверности и разнообразия последовательностей. Они предоставляют реализацию с открытым исходным кодом, облегчающую интеграцию различных PLM и алгоритмов майнинга с целью продвижения исследований в области дизайна белковых последовательностей.

Для создания биологических последовательностей были изучены различные методы. Эволюционные алгоритмы, такие как направленная эволюция и AdaLead, фокусируются на итеративном изменении последовательностей на основе показателей производительности. Стратегия эволюции адаптации ковариационной матрицы (CMA-ES) генерирует последовательности-кандидаты с использованием многомерного нормального распределения. Проксимальное исследование (PEX) благоприятствует отбору последовательностей, близких к дикому типу. Методы обучения с подкреплением, такие как DyNAPPO, оптимизируют суррогатные функции вознаграждения для генерации различных последовательностей. Составы выборок GFlowNets пропорциональны их функциям вознаграждения, тем самым облегчая различные терминальные состояния. Генеративные модели, такие как дискретная диффузия, и модели, основанные на потоках, такие как FoldFlow, генерируют белки в пространстве последовательностей или структур. Байесовская оптимизация адаптирует модели замещения для оптимизации последовательностей, тем самым решая многоцелевые задачи проектирования белков. MCMC и байесовский подход к выборке последовательностей на основе энергетических моделей и предсказаний структуры.

ЧИТАТЬ  Модернизация .NETpad: неожиданные достижения в дизайне (Премиум)

В области проектирования белковых последовательностей с использованием обучения с подкреплением задача моделируется как марковский процесс принятия решений (MDP), в котором последовательности мутируют на основе действий, выбранных политикой обучения с подкреплением. Последовательности представлены в формате горячего кодирования, а мутации включают выбор положения и замену аминокислот. Награды определяются путем оценки структурного сходства с использованием дорогой модели оракула (ESMFold) или более дешевой прокси-модели, периодически уточняемой с учетом фактических оценок оракула. Критерии оценки сосредоточены на биологической правдоподобности и разнообразии, которые оцениваются с помощью таких показателей, как оценка модельного моделирования (TM) и тест на разницу локальных расстояний (LDDT), а также меры разнообразия и структуры последовательностей.

Различные алгоритмы проектирования последовательностей оценивались с использованием показателей pTM из ESMFold в качестве основного показателя в проведенных экспериментах. Результаты показали, что такие методы, как MCMC, преуспели в прямой оптимизации pTM, в то время как методы RL и GFlowNets продемонстрировали свою эффективность за счет использования прокси-модели. Эти методы сохранили высокие показатели pTM, одновременно значительно сократив вычислительные затраты. Однако производительность MCMC снизилась при тонкой настройке с помощью прокси-сервера, возможно, из-за того, что он оказался в ловушке неоптимальных решений, соответствующих модели прокси, но не ESMFold. В целом методы RL, такие как PPO и SAC, а также GFlowNets, продемонстрировали надежную работу по показателям биоправдоподобности и разнообразия, доказав свою адаптируемость и эффективность для задач генерации последовательностей.

Результаты поиска ограничены вычислительными ограничениями для более длинных последовательностей и использованием прокси-модели или модели ESMFold 3B для оценки. Неопределенность или несогласованность модели вознаграждения усложняют ситуацию и требуют дальнейшего изучения других PLM, таких как AlphaFold2 или более крупных вариантов ESMFold. Переход к более крупным прокси-моделям может повысить точность для более длинных последовательностей. Хотя исследование не предполагает негативных последствий, оно подчеркивает потенциальное неправильное использование PLM. В целом, эта работа демонстрирует эффективность использования PLM для разработки политики мутаций для генерации последовательностей белков, представляя алгоритмы глубокого RL как сильных конкурентов в этой области.

ЧИТАТЬ  Строительство и реконструкция недвижимости: инновации, успешные стратегии и перспективы развития

Проверять Бумага. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Не забудьте подписаться на нас Твиттер.

Присоединяйтесь к нашему Telegram-канал И LinkedIn Групс.

Если вам нравится наша работа, вам понравятся наши бюллетень..

Не забудьте присоединиться к нам Более 46 000 субреддитов ML


Достижения в разработке белковых последовательностей: использование обучения с подкреплением и лингвистических моделей

Сана Хассан, стажер-консультант в Marktechpost и студентка двойного диплома в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. Обладая большим интересом к решению практических проблем, он привносит свежий взгляд на пересечение искусственного интеллекта и реальных решений.



Source

Оцените статью
Своими руками