Я следил за последней статьей AF, которая официально называется AlphaFold-последняя. Она может предсказывать сложную структуру белков и малых молекул, белков и нуклеиновых кислот. Это атака с уменьшением размерности на традиционные методы сложного прогнозирования. Единственный недостаток: по слухам, Deepmind не планирует открывать исходный код. Ну да ладно, это мой недостаток. Подробности о статье ниже.
Banyan Set – обновления AlphaFold
Ну и Розетта тоже дала полноатомное решение. Статья опубликована 7, 24 марта, и до сих пор горячо. RoseTTAFold All-Atom (RFAA) может предсказывать белки, нуклеиновые кислоты, малые молекулы, металлы и ковалентно модифицированные сборки и делает его открытым исходным кодом.
Сейчас мне больше любопытно, живем ли мы в эпоху, когда ИИ может предоставить окончательное решение, или мы живем в эпоху, когда все работают вместе, чтобы строить и улучшать.
Методы глубокого обучения произвели революцию в области прогнозирования и проектирования структуры белков. В этой статье представлены две модели: 1. RoseTTAFold All-Atom (RFAA), которая может моделировать сборки, содержащие белки, малые молекулы, нуклеиновые кислоты, металлы и ковалентные модификации. 2. RFdiffusionAA, которая выполняет задачи снижения шума. Был получен RFdiffusionAA, который может строить белковые структуры вокруг небольших молекул.
Авторы также провели экспериментальную проверку и разработали белки, которые могут связывать дигоксигенин, белки, которые могут связывать гем, и белки, которые могут связывать светособирающую молекулу биливердин.
Для проектирования автор использует сеть прогнозирования RoseTTAFold2 (RF2). Представление белков и нуклеиновых кислот в RF2 сохраняется, а малые молекулы, ковалентно модифицированные и неприродные аминокислоты представлены в виде графов (атомов-связей). На 1D-дорожке автор вводит тип химического элемента каждого неполимерного атома, на 2D-дорожке вводятся химические связи между атомами, на 3D-дорожке вводится информация о киральности (R/S);
Автор собрал набор данных о комплексе белок-биомолекула из базы данных PDB, включая комплексы белок-малые молекулы, белок-металл и ковалентно модифицированные белковые комплексы. Общие растворители и добавки были отфильтрованы. Чтобы избежать систематической ошибки, авторы выполнили кластеризацию (идентичность последовательностей 30%). В то же время, чтобы помочь нейронной сети изучить общие свойства малых молекул, а не конкретные особенности в данных PDB, автор использует данные о кристаллической структуре малых молекул в Кембриджской структурной базе данных в качестве дополнительного обучающего набора.
Построен сервер RFAA для оценки стыковки CAMEO.,Этот сервер делает еженедельные прогнозы для всех структур, представленных в PDB. В структуре КАМЕО,Есть 43% структура,Результаты прогноза RFAA демонстрируют высокую достоверность (PAE Interaction < 10), среди которых 77% структур с высокой степенью достоверности являются достаточно точными, а RMSD лиганда составляет менее 2 Å, как показано на рисунке выше (B). При этом в сравнении с Виной вероятность успешности предсказания RFAA составила 32%, тогда как Вина — всего 8%. Самая распространенная ошибка RFAA заключается в том, что молекула находится в правильном кармане, но молекула ориентирована неправильно. В то же время следует также отметить, что, если им будут управлять специалисты, возможно, вероятность успешной стыковки Вины будет выше.
Автор также сравнил прогнозы DiffDock и результат RFAA.,Уровень успеха RFAA составляет 42%,Уровень успеха DiffDock составляет 38%.,Но стоит отметить, что RFAA также предсказывает боковые цепи и скелеты белков.,DiffDock напрямую получает структуру белка для стыковки.,RFAA сложнее в эксплуатации.
В случаях, когда предоставляется комбинированная структура белка, Vina работает лучше, чем RFAA (52% против 42%), поскольку перед RFAA стоит более сложная задача по предсказанию деталей основной цепи и боковой цепи белка по последовательности.
Авторы предсказали 931 случай ковалентной модификации в данных PDB с вероятностью успеха 46% (RMSD < 2.5Å, Здесь RMSD относится к RMSD модифицированного остатка, когда остальные выровнены. ). В то же время RFAA может эффективно предсказывать структуры гликанов и моделировать углеводные группы, участвующие в гликозилировании. Медиана RMSD на тестовом наборе составляет 3,2. О. RFAA не просто изучает структуру смоделированных гликанов.,Потому что предсказанный результат соответствует экспериментальной карте плотности. Эта сеть работает даже тогда, когда последовательности далеки от тех, что есть в обучающем наборе.,Также позволяет точно прогнозировать взаимодействие гликанов.,И он может предсказывать гликаны, содержащие до семи моносахаридов.
В предыдущих исследовательских работах по созданию белков, связывающих небольшие молекулы, обычно использовался метод стыковки молекулы с естественной или выбранной экспертами структурной библиотекой белкового каркаса. Методы, основанные на диффузии, позволяют генерировать белки, которые связываются с белками-мишенями с относительно высоким сродством и специфичностью. С помощью диффузионной обработки авторы могут генерировать белки, которые прочно связываются с небольшими молекулами. На тестовом наборе сгенерированная структура белка очень похожа на реальную структуру белка.
RFAA демонстрирует, что одну нейронную сеть можно обучить точному моделированию биомолекулярных ансамблей, содержащих множество небелковых компонентов. РФАА узнало подробные характеристики белково-малых молекулярных комплексов. Во-первых, сеть способна с высокой точностью предсказывать комплексы, которые существенно отличаются от белков и лигандов в обучающем наборе данных, а энергия взаимодействия, рассчитанная с помощью физической модели Rosetta, помогает повысить точность комплексного предсказания. Во-вторых, RFdiffusionAA также помогает создавать новые белки, объединяющие небольшие молекулы.
Общая оценка: Установить относительно просто.
Вы можете следовать руководству прямо по этой ссылке: https://github.com/baker-laboratory/RoseTTAFold-All-Atom.
Здесь мы даем некоторые, Введение и меры предосторожности.
1. УстановитьMamba
wget "https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-$(uname)-$(uname -m).sh"
bash Mambaforge-$(uname)-$(uname -m).sh # Принять все элементы, восстановить в папку по умолчанию
rm Mambaforge-$(uname)-$(uname -m).sh # (необязательный) Удалить после установки
source ~/.bashrc
Здесь стоит отметить, что если conda существует в вашей исходной среде, исходный путь среды conda будет заменен путем conda mamba.
2. Клонируйте этот пакет.
git clone https://github.com/baker-laboratory/RoseTTAFold-All-Atom
cd RoseTTAFold-All-Atom
3. Используйте мамбу для создания среды RFAA
mamba env create -f environment.yamlconda activate RFAA # NOTE: Это естественно бросить conda deactivate RFAA cd rf2aa/SE3Transformer/pip3 install --no-cache-dir -r requirements.txtpython3 setup.py installcd ../../
Операция в основном такая же, как и conda, и никаких других мер предосторожности нет.
4. Загрузите signalp6 и настройте его.
Вы можете выполнить команду «Восстановить» из,зарегистрироваться Академическая версия вашего аккаунта:https://services.healthtech.dtu.dk/services/SignalP-6.0/
Вы получите электронное письмо в свой почтовый ящик и воспользуетесь wget для его загрузки. signalp-6.0h.fast.tar.gz
signalp6-register signalp-6.0h.fast.tar.gz # NOTE: зарегистрироваться
mv $CONDA_PREFIX/lib/python3.10/site-packages/signalp/model_weights/distilled_model_signalp6.pt $CONDA_PREFIX/lib/python3.10/site-packages/signalp/model_weights/ensemble_model_signalp6.pt # ПРИМЕЧАНИЕ. Переименовать distilled Модельмасса
5. Установить Зависимости
bash install_dependencies.sh
6. Загрузите файл веса.
wget http://files.ipd.uw.edu/pub/RF-All-Atom/weights/RFAA_paper_weights.pt
7. Загрузите библиотеку последовательностей, созданную MSA, и шаблон.
# uniref30 [46G]
wget http://wwwuser.gwdg.de/~compbiol/uniclust/2020_06/UniRef30_2020_06_hhsuite.tar.gz
mkdir -p UniRef30_2020_06
tar xfz UniRef30_2020_06_hhsuite.tar.gz -C ./UniRef30_2020_06
# BFD [272G]
wget https://bfd.mmseqs.com/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt.tar.gz
mkdir -p bfd
tar xfz bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt.tar.gz -C ./bfd
# structure templates (including *_a3m.ffdata, *_a3m.ffindex)
wget https://files.ipd.uw.edu/pub/RoseTTAFold/pdb100_2021Mar03.tar.gz
tar xfz pdb100_2021Mar03.tar.gz
Если вы раньше играли в AF2,
8. Необязательно:
RoseTTAFold-All-Atom
Скачать и распаковать в папку,Этот шаг можно пропустить. Поскольку файлы моей базы данных хранятся в фиксированном месте.,Поэтому установлено множество мягких ссылок.После выполнения вышеизложенного вы можете приступить непосредственно.
# Прогнозирование мономерного белка
python -m rf2aa.run_inference --config-name protein
# Прогнозирование комплекса белково-нуклеиновых кислот
python -m rf2aa.run_inference --config-name nucleic_acid
# Прогнозирование комплекса малых молекул белка
python -m rf2aa.run_inference --config-name protein_sm
Процесс запуска занимает около 10-30 минут.
ты можешьrf2aa/config/inference
Конфигурационный файл находится в,и выполнить индивидуальную настройку.
Ниже особо объяснять нечего.