DNA聚合酶的蛋白质结构模型。参与DNA复制的酶

蛋白质的功能是由它的三维形状决定的。图源:列昂尼德·安德罗诺夫/阿拉米

“在某种意义上,问题已经解决了,”计算生物学家约翰·莫尔特在2020年底宣布。总部位于伦敦的DeepMind公司刚刚在一场由Moult联合创办的两年一度的比赛中大获成功,该比赛用其革命性的人工智能(AI)工具AlphaFold测试团队预测蛋白质结构的能力——这是生物学最艰巨的挑战之一。

两年后,Moult的竞争对手,结构预测关键评估(CASP),仍然走在AlphaFold的长长的阴影中。本周末在土耳其安塔利亚的一次会议上公布的今年版本(CASP15)的结果显示,从氨基酸序列预测蛋白质结构的最成功方法包含了AlphaFold,它依赖于一种称为深度学习的人工智能方法。“每个人都在使用AlphaFold,”密歇根大学安娜堡分校(University of Michigan in Ann Arbor)的计算生物学家张扬(Yang Zhang)说。

然而,AlphaFold的进展为蛋白质结构预测的新挑战打开了闸门——其中一些包括在今年的CASP中——这些挑战可能需要新的方法和更多的时间来完全解决。纽约哥伦比亚大学的计算生物学家Mohammed AlQuraishi说:“唾手可得的果实已经被摘走了。”“接下来的一些问题会更难。”

相亲

CASP成立于1994年,旨在提高蛋白质结构预测领域的精确性——这方面的进展将加速人们对细胞组成部分的理解,并推动药物的发现。在比赛的一年中,各团队的任务是使用计算工具来预测蛋白质的结构,这些结构已经通过x射线晶体学和冷冻电子显微镜等实验方法确定,但尚未公布。

条目是根据整个蛋白质的预测,或称为结构域的独立折叠亚基与实验结构的匹配程度进行评估的。一些AlphaFold在CASP14上的预测与实验模型几乎没有区别——这是第一次达到这样的精度。

自从在CASP14上亮相以来,AlphaFold已经在生命科学研究中无处不在。DeepMind在2021年发布了该软件的底层代码,以便任何人都可以运行该程序,今年更新的AlphaFold数据库包含了基因组数据库中所代表的所有生物中几乎所有蛋白质的预测结构(质量各异),总共超过2亿种蛋白质。

AlphaFold的成功和新发现的无处不在对正在马里兰大学罗克维尔分校(University of Maryland, Rockville)工作的Moult和他的同事们提出了挑战,他们正在计划今年的CASP。“人们说,‘哦,我们不再需要CASP了,问题已经解决了。’我认为这完全是错误的。”

在CASP15上,最成功的团队是那些以各种方式适应和构建AlphaFold的团队,在预测单个蛋白质和结构域的形状方面取得了适度的进展。莫尔特说:“精确度已经很高了,很难再提高了。”

蛋白复合物

为了让比赛在后alphafold时代更有意义,莫尔特和他的团队增加了新的挑战,并对一些现有的挑战进行了调整。新的测试包括确定蛋白质如何与其他分子(如药物)相互作用,以及预测一些蛋白质可以呈现的多种形状。在过去的十年中,CASP包括了多种相互作用蛋白质的“复合物”,Moult说,但准确预测这些分子的结构在今年得到了更多的重视。

“这是正确的事情,”张说,因为预测单个蛋白质或结构域的结构——过去casp的面包和黄油——在很大程度上已经被AlphaFold解决了。斯德哥尔摩大学的蛋白质生物信息学家Arne Elofsson说,特别是确定蛋白质复合物的形状,对该领域来说是一个重要的新挑战,因为还有很大的改进空间。

AlphaFold最初被设计用来预测单个蛋白质的形状。但是,在它公开发布的几天内,其他科学家表示,该软件可以被“黑”来模拟多种蛋白质的相互作用。在那之后的几个月里,研究人员想出了无数种方法来提高AlphaFold处理复合物的能力。为了实现这一目标,DeepMind甚至发布了一个名为AlphaFold-Multimer的更新。

这样的努力似乎得到了回报,因为与之前的比赛相比,CASP15的精确复合体数量显著增加,这主要是因为采用了适应AlphaFold的方法。“对我们来说,这是一个接近实验精度的复合体,”Moult说。“我们也有一些失败。”

例如,研究小组对一种功能未知的病毒分子做出了惊人的准确预测,这种病毒分子由两个相同的相互缠绕的蛋白质组成。土耳其伊兹密尔生物医学和基因组中心的计算结构生物学家埃兹吉·卡拉卡(Ezgi Karaca)评估了这种复杂的预测,他说,这种形状迷惑了alphafold之前的工具。卡拉卡补充说,AlphaFold的标准版本未能准确地模拟出一个巨大的20链细菌酶的形状,但一些团队通过对网络应用额外的黑客来预测蛋白质的结构。

与此同时,研究团队努力预测涉及被称为抗体的免疫分子的复合物——包括几个附着在SARS-CoV-2蛋白质上的抗体——以及被称为纳米体的相关分子。但卡拉卡说,在一些团队的预测中有一些成功的迹象,这表明入侵AlphaFold将有助于预测这些医学上重要分子的形状。

时间

今年的CASP也因DeepMind的缺席而引人注目。该公司没有说明不参加的原因,但在CASP15期间发布了一份简短的声明,祝贺参加的团队。(与此同时,它还对AlphaFold进行了更新,以帮助研究人员将他们的进展与该网络进行比较。)

其他研究人员表示,竞争需要投入相当多的时间,公司可能会觉得把这些时间花在其他挑战上更好。莫尔特说:“如果他们能参与进来,对我们来说就太好了。”但他补充说,“因为这些方法太好了,他们不可能再实现一次大飞跃”。

研究人员表示,对AlphaFold进行重大改进需要时间,而且可能需要在机器学习和蛋白质结构预测方面进行新的创新。正在开发的一个领域是“语言模型”的应用,例如在预测文本工具中使用的“语言模型”,用于预测蛋白质结构。但这些方法——包括社交网络巨头Meta开发的一种方法——在CASP15上的表现远不如基于AlphaFold的工具。

然而,这些工具可能有助于预测突变如何改变蛋白质结构——这是AlphaFold成功后蛋白质结构预测中出现的几个关键挑战之一。AlQuraishi说,由于这一点,该领域不再专注于一个单一的目标。“有一大堆这样的问题。”