Компания, принадлежащая Google, разработала систему, которая может надежно предсказывать трехмерные формы белков.
Ключевые выводы
- Ученых долгое время озадачивал вопрос о том, как определенные цепи аминокислот продолжают формировать трехмерные белки.
- DeepMind разработала систему, способную предсказывать «сворачивание белка» за долю времени, сравнимое с экспериментами на людях, и с беспрецедентной точностью.
- Достижение может значительно улучшить исследования и разработку лекарств, а также биоинженерные занятия.
В 1994 году группа ученых организовала соревнование, чтобы решить одну из самых сложных проблем в биологии: как белки складываются в трехмерные формы, которые затем выполняют фундаментальные процессы в живых организмах?
Ответ на этот вопрос 50-летней давности может произвести революцию во многих научных областях, от ускорения и улучшения разработки лекарств до создания лучшего биотоплива. Но соревнование под названием «Критическая оценка предсказания структуры белка» (CASP) десятилетиями не давало решения.
Затем в дело вмешался искусственный интеллект.
DeepMind, британская компания, занимающаяся искусственным интеллектом, по существу решила давнюю проблему на последнем соревновании CASP14. Компания превзошла другие команды по величине, предсказывая формы белков с точностью, никогда ранее не достигаемой людьми.
«Это большое дело», - сказал Nature Джон Моулт, биолог-вычислитель, соучредитель CASP. «В каком-то смысле проблема решена».
В соревнованиях, проводимых раз в два года, команды анализируют около 100 белков, чтобы предсказать их возможную трехмерную форму. Форма белка определяет его функцию. Например, белок может стать антителом, которое связывается с чужеродными частицами для защиты, ферментом, осуществляющим химические реакции, или структурным компонентом, поддерживающим клетки.
Белки начинаются как цепочки из сотен аминокислот. В белке пары аминокислот могут взаимодействовать множеством способов, и именно эти взаимодействия определяют окончательную форму белка. Но, учитывая огромное количество возможных взаимодействий, невероятно сложно предсказать физическую форму белка. Сложно, но не невозможно.
С момента появления CASP ученые смогли предсказать форму некоторых простых белков с достаточной точностью. CASP может проверить точность этих предсказаний, сравнив их с фактической формой белков, которую он получил по неопубликованным результатам лабораторных экспериментов.
Но эти эксперименты сложны и часто занимают месяцы или годы напряженной работы. Форма некоторых белков десятилетиями ускользала от ученых. Таким образом, трудно переоценить ценность ИИ, способного выполнить эту работу всего за несколько часов или даже минут.
В 2018 году компания DeepMind, которая была приобретена Google в 2014 году, поразила научное сообщество, когда ее алгоритм AlphaFold выиграл конкурс CASP13. AlphaFold смогла предсказать формы белков путем «обучения» себя на огромном количестве данных об известных цепочках аминокислот и соответствующих им формах белков.
Другими словами, AlphaFold узнал, что определенные конфигурации аминокислот - скажем, расстояния между парами, углы между химическими связями - сигнализируют о том, что белок, вероятно, примет определенную форму. Затем AlphaFold использовала эти данные для предсказания формы некартированных белков. Показатели AlphaFold в конкурсе 2018 года были впечатляющими, но недостаточно надежными, чтобы считать проблему «свертывания белков» решенной.
В последнем конкурсе DeepMind использовала обновленную версию AlphaFold. Он сочетает в себе предыдущую стратегию глубокого обучения с новым «алгоритмом внимания», который учитывает физические и геометрические факторы. Вот как DeepMind описывает это:
«Свернутый белок можно рассматривать как «пространственный граф», где остатки являются узлами, а ребра соединяют остатки в непосредственной близости. Этот график важен для понимания физических взаимодействий внутри белков, а также их эволюционной истории».
«Для последней версии AlphaFold, использованной на CASP14, мы создали нейронную сеть, основанную на внимании, обученную сквозным образом, которая пытается интерпретировать структуру этого графика, рассуждая о неявный граф, который он строит. Он использует эволюционно связанные последовательности, множественное выравнивание последовательностей (MSA) и представление пар аминокислотных остатков для уточнения этого графика».
CASP измеряет точность прогноза с помощью «Глобального теста расстояния (GDT)», который находится в диапазоне от 0 до 100. Новая версия AlphaFold показала медиану 92,4 GDT для всех целей.
AlphaFold: научный прорывyoutu.be
Учитывая, что конкретные способы формирования белков могут пролить свет на то, как формируются заболевания, AlphaFold может значительно ускорить исследования заболеваний и разработку лекарств. И хотя система уже слишком поздно может помочь с COVID-19, DeepMind говорит, что предсказание структуры белка может быть «полезным в будущих усилиях по реагированию на пандемию».
Тем не менее, ученым еще многое предстоит узнать о предсказании структуры белков, и, хотя AlphaFold оказалась быстрее и точнее, чем эксперименты на людях, система не является точной на 100%. Но достижение DeepMind сигнализирует о том, что ИИ может стать удивительно мощным инструментом для раскрытия ключевых тайн биологии и не только.
«Для всех нас, работающих над вычислительными методами и методами машинного обучения в науке, такие системы, как AlphaFold, демонстрируют ошеломляющий потенциал ИИ как инструмента, помогающего фундаментальным открытиям», - пишет DeepMind. «Подобно тому, как 50 лет назад Анфинсен поставил задачу, которая в то время была далеко за пределами досягаемости науки, многие аспекты нашей Вселенной остаются неизвестными. Объявленный сегодня прогресс вселяет в нас еще большую уверенность в том, что ИИ станет одним из самых полезных инструментов человечества в расширении границ научных знаний, и мы с нетерпением ждем многих лет напряженной работы и открытий впереди!»