摘要:2024年诺贝尔化学奖授予了在蛋白质结构设计与预测领域作出决定性贡献的三位科学家:大卫•贝克(David Baker)、德米斯•哈萨比斯(Demis Hassabis)和约翰•朱姆珀(John M. Jumper)。本文围绕三位获奖者,主要介绍了计算结构生物学领域中蛋白质设计与预测的科学背景、主要历史挑战,以及该科学突破的发展历程和对未来的影响。
2024年10月9日,瑞典皇家科学院常任秘书汉斯•埃勒格伦(Hans Ellegren)教授宣布了2024 年诺贝尔化学奖获奖名单。今年的诺贝尔化学奖,一半授予大卫•贝克(David Baker),表彰其在“基于计算的蛋白质设计(computational protein design)”方面的贡献;另一半共同授予德米斯• 哈萨比斯(Demis Hassabis)和约翰•朱姆珀(John M. Jumper),表彰其在“蛋白质结构预测(protein structure prediction)”方面的贡献。蛋白质是生命过程中巧妙而又不可或缺的化学工具。David Baker完成了几乎不可能的任务——基于计算设计,成功构建了全新类别的蛋白质;而Demis Hassabis和John Jumper开发了一个人工智能模型,解决了一个持续50年的难题——预测蛋白质的复杂结构。
生命的多样性证明了蛋白质作为化学工具的惊人能力。它们控制并驱动所有生命化学反应。蛋白质还作为激素、信号物质、抗体以及不同组织的构建块发挥作用。诺贝尔化学委员会主席海纳•林克(Heiner Linke)则直接表示:“今年的发现之一涉及构建了令人惊叹的蛋白质,而另一个则实现了50年的梦想——从氨基酸序列预测蛋白质的结构。这两项发现都开辟了广阔的可能性。”蛋白质通常由20种不同的氨基酸组成,这些氨基酸可以被描述为生命的构建块。2003年,David Baker成功使用这20种氨基酸设计了一类与任何其他蛋白质都不同的新蛋白质。自此,他的研究小组创造了一个又一个富有想象力的蛋白结构,这些创造可以用于并促进药物、疫苗、纳米材料和微型传感器的后续研发。第二项发现涉及蛋白质结构的预测。蛋白质中的氨基酸链接成长链,折叠形成三维结构,并直接决定蛋白质的功能。自20世纪70年代以来,研究人员一直试图从氨基酸序列来预测蛋白质的结构,但这非常困难。然而,4年前,这一领域出现了惊人的突破。2020年,Demis Hassabis和John Jumper发表了名为 AlphaFold2的人工智能模型,借助该模型,他们能够预测几乎所有已经被识别的2亿种蛋白质的结构。自这一突破以来,全球已有超过190个国家的200多万用户使用AlphaFold2。蛋白质是生命的基础,而人类实现对蛋白质结构的预测并完成蛋白质的理性设计,无疑是科技与社会的一项重大突破与变革。
1.谜题:蛋白质如何找到其独特的结构?
生命的复杂化学反应如何成为可能?答案是蛋白质。蛋白质可以被形容为巧妙的化学工具,通常由20种氨基酸组成,这些氨基酸可以以无数方式组合。细胞利用DNA中储存的信息作为蓝图,将这些氨基酸连接成长链。随后,蛋白质的“魔法”便发生了:氨基酸链开始扭曲并折叠成独特的三维结构,而这一结构赋予了蛋白质特定的功能,使其能够成为化学构建块,可以构建肌肉、羽毛,也可以成为激素或抗体。值得指出的是,蛋白质可以折叠形成酶,从而以惊人的精确度推动生命的化学反应。而位于细胞表面的蛋白质同样重要,它们在细胞与外界环境之间充当沟通渠道。
化学家们早在19世纪就知道蛋白质对生命进程的重要性,但直到20世纪50年代,化学工具才足够精确,能够让研究人员开始详细探索蛋白质的结构。剑桥的约翰•肯德鲁(John Kendrew) 和马克斯•佩鲁茨(Max Perutz)在20世纪50年代末取得了突破性进展,他们成功利用X射线晶体学方法展示了首个三维蛋白质模型。因此,他们在1962年获得了诺贝尔化学奖。自那时起, 研究人员主要依靠X射线晶体学方法,经过大量努力,成功地生成了约20万种不同蛋白质的图像,为2024年诺贝尔化学奖的研究工作打下了基础。美国科学家克里斯蒂安•安芬森(Christian Anfinsen)做出了另一个早期发现。他通过各种化学方法使蛋白质展开,并让它们重新折叠回原样。令人惊讶的是,每次蛋白质都会折叠成完全相同的形状。1961年,他得出结论:蛋白质的三维结构完全由其氨基酸序列决定。因此,他于1972年获得了诺贝尔化学奖。然而,Anfinsen的逻辑中存在一个悖论。1969年,另一位美国科学家赛勒斯•莱文塔尔(Cyrus Levinthal)指出,即使一个蛋白质仅由100个氨基酸组成,理论上它可以形成至少1047种不同的三维结构。如果这些氨基酸链是随机折叠的,那么找到正确的蛋白质结构将耗费比宇宙存在时间还要长的时间。而在细胞中,整个过程仅需几毫秒。那么,氨基酸链到底是如何折叠的呢?Anfinsen的发现与Levinthal的悖论表明,蛋白质折叠是一个预定过程,而且,所有关于如何折叠的信息都应该存在于氨基酸序列中。
上述发现引发了一个重要的猜想:如果化学家们了解蛋白质的氨基酸序列,他们应该能够预测蛋白质的三维结构。这是一个激动人心的想法,如果他们成功了,就不再需要使用复杂的X射线晶体学方法,也可以节省大量时间。同时,他们也能为那些无法用X射线晶体学解析的蛋白质生成结构。这一逻辑挑战催生了生物化学的伟大难题——蛋白质结构预测问题。为推动该领域的发展,研究人员于1994年启动了“蛋白质结构预测关键评估”(CASP)项目,这一项目逐渐演变成一场竞赛。每两年,全球的研究人员都会获得某些刚刚确定结构的蛋白质的氨基酸序列,但这些蛋白质的结构对参与者是保密的, 挑战是基于已知的氨基酸序列预测蛋白质结构。尽管CASP吸引了众多研究人员参与,但解决这一预测难题却极为困难,研究人员的预测结果与真实结构的相符程度几乎没有提高。直到2018 年,一位棋手、神经科学专家及人工智能的开拓者进入了这个领域,才出现了突破。这位开拓者就是Demis Hassabis。
Hassabis 4岁开始下棋,13岁成为棋坛大师。十几岁时,他开始从事程序开发,并成为成功的游戏开发者。随后,他探索人工智能领域,并开始研究神经科学,在这一领域做出了多项革命性发现。他利用从大脑研究中学到的知识,开发出更好的人工神经网络模型。2010年,Demis Hassabis等人共同创立了DeepMind公司,这家公司开发了能够在热门棋类游戏中获胜的人工智能模型。2014年,DeepMind被谷歌收购。两年后,该公司实现了当时被许多人视为人工智能“圣杯”的成就——击败了世界围棋冠军。然而,对于Hassabis来说,围棋并非最终目标,而是开发更强大的人工智能模型的手段。围棋胜利后,他的团队开始着手解决对人类更加重要的问题。于是在2018年,他参加了第十三届CASP竞赛。在此前的CASP竞赛中,研究人员的蛋白质结构预测准确度最高仅为40%,而Hassabis团队的人工智能模型AlphaFold达到了近60%的准确度。他们赢得了比赛,这一惊人的进展让许多人感到意外。然而,这仍然不够,要取得成功,预测结果的准确度必须与目标结构相比达到90%。Hassabis的团队继续改进AlphaFold模型,但无论他们如何努力,算法始终未能完全实现目标,团队陷入瓶颈。就在这时,一位相对新入职的员工提出了决定性的改进建议,他就是John Jumper。
John Jumper因对宇宙的着迷而开始学习物理和数学。然而,2008年,当在一家利用超级计算机模拟蛋白质及其动力学的公司工作时,他意识到物理知识可以帮助解决医学问题。带着对蛋白质的新兴趣,2011年他开始攻读理论物理学博士学位。在计算资源紧缺的情况下,他开始开发更简单、更巧妙的蛋白质动力学模拟方法。2017 年,他刚完成博士学位时,听说谷歌DeepMind 已经秘密开始预测蛋白质结构,于是他提交了求职申请。由于在蛋白质模拟方面的经验,他提出了许多关于如何改进AlphaFold的创新想法。在团队遇到瓶颈后,他被提拔为共同领导者,并与Hassabis一起推动AI模型的重大改革。
新版本的AlphaFold2融入了Jumper的蛋白质知识。团队还开始利用人工智能领域最近取得的巨大突破——称为“转换器”的Transformer神经网络。转换器可以比以前更灵活地从海量数据中找到模式,并有效地确定为达成特定目标应专注的内容。团队在所有已知的蛋白质结构和氨基酸序列的庞大数据库上训练AlphaFold2。正是在第十四届CASP竞赛之前,这个全新的AI架构开始产生令人满意的成果。2020年,当CASP的组织者评估竞赛结果时,他们意识到生物化学领域持续了50年的挑战已然结束。在大多数情况下, AlphaFold2的表现几乎与X射线晶体学相当。这是个惊人的成就!当CASP创始人之一的约翰•穆尔特(John Moult)在2020年12月4日总结比赛时,他问道:“接下来我们该做什么?”
2.David Baker的另一个方向:从零开始设计蛋白质
David Baker在哈佛大学求学时,最初选择了哲学和社会科学作为主修课程。然而,在一次进化生物学课程上,他接触到如今被认为是经典的《细胞的分子生物学》(Molecular Biology of the Cell)一书的第一版。这本书让他决定改变人生方向,转而研究细胞生物学,并逐渐对蛋白质结构产生浓厚的兴趣。1993年,他在西雅图的华盛顿大学开始领导自己的研究团队,专注于探索蛋白质的折叠方式。这些研究为他的后续研究提供了重要的理论支撑,到了20世纪90年代末,他开始开发可以预测蛋白质结构的计算软件——Rosetta。1998年,Baker首次带着Rosetta软件参加CASP竞赛,并取得了相对不错的成绩。这一成功让他产生了一个新想法:如果Rosetta可以通过氨基酸序列预测蛋白质结构, 那么它也应该可以通过输入特定的蛋白质结构, 反推出能够产生该结构的氨基酸序列。这样,他们就可以设计出全新的蛋白质。
蛋白质设计在20世纪90年代末开始兴起。在很多情况下,研究人员通过对现有蛋白质进行微调,使其可以执行诸如分解有害物质或作为化学工业工具等任务。然而,自然界的蛋白质种类有限,为了增加设计全新功能蛋白质的潜力,Baker的研究团队希望从头开始创建蛋白质。Baker曾打趣说:“如果你想造飞机,你不会从改造一只鸟开始,而是应该理解空气动力学的基本原理,并从这些原理出发建造飞行器。” 这个领域被称为“从头设计”(de novo design)。Baker的研究团队绘制出一种具有全新结构的蛋白质,并让Rosetta计算出哪种氨基酸序列能够生成目标蛋白质。为此,Rosetta会搜索所有已知的蛋白质结构数据库,寻找与目标结构相似的短片段蛋白质;然后,利用蛋白质能量结构的基本知识,Rosetta对这些片段进行优化,提出一个氨基酸序列。为了验证软件的成功性,研究团队将设计的氨基酸序列基因引入细菌中,让细菌产生该目标蛋白质。接着,他们使用X射线晶体学方法确定蛋白质结构。结果表明,Rosetta确实可以构建出蛋白质,而且Baker团队开发的名为Top7的蛋白质几乎完全符合他们设计的结构。Top7的诞生震惊了蛋白质设计领域的研究人员,因为此前创造出的de novo蛋白质只能模仿现有结构,而Top7的独特结构在自然界中并不存在。更令人惊讶的是,这个93个氨基酸组成的蛋白质比之前设计出的任何de novo蛋白质都要大。Baker在2003年发表了这一发现,标志着一场非凡的进展的开始。在接下来的几年中,Baker实验室创造了许多令人惊叹的蛋白质,同时公开了Rosetta的代码。之后,全球的研究社区继续开发该软件,并向更多的应用领域持续扩展。
3.从数年到数分钟的飞跃
当Demis Hassabis和John Jumper确认AlphaFold2真的有效后,他们计算了所有人类蛋白质的结构。随后,他们几乎预测了地球上所有被研究人员发现的2亿种蛋白质的结构。谷歌DeepMind也公开了AlphaFold2的代码,任何人都可以访问它。这一AI模型已成为科研人员的“宝库”。截至2024年10月,AlphaFold2已被来自190个国家的200多万人使用。此前,获得一个蛋白质结构通常需要数年时间,但现在几分钟内就可以完成。虽然AI模型并不完美,但它会估算出所生成结构的准确性,这样研究人员就能知道预测结果的可靠性。蛋白质作为化学工具的惊人多样性,反映了生命的丰富多彩。如今我们可以轻松地可视化这些微小的分子机器, 这让我们更好地理解生命的运作方式,包括某些疾病如何发生,抗生素和抗病毒药物耐药性如何产生,以及创造具有全新功能的蛋白质。蛋白结构的预测与设计,可能带来新的纳米材料、精准的药物设计、更快的疫苗开发、微型传感器,以及更加环保的化学工业——这些应用都将为人类带来巨大的技术突破与变革。
附录:获奖者简介
大卫•贝克(图1),1962年出生于美国华盛顿州西雅图,1989年获得美国加利福尼亚大学伯克利分校博士学位,现为美国华盛顿大学教授,兼任霍华德•休斯医学研究所研究员。诺贝尔化学奖份额:1/2。
图1 大卫•贝克(David Baker)
德米斯•哈萨比斯(图2左),1976年出生于英国伦敦,2009年获得英国伦敦大学学院博士学位,现任谷歌DeepMind首席执行官。诺贝尔化学奖份额:1/4。
约翰•朱姆珀(图2右),1985年出生于美国阿肯色州小石城,2017年获得美国芝加哥大学博士学位,现任谷歌DeepMind高级研究科学家。诺贝尔化学奖份额:1/4。
图2 左图:德米斯•哈萨比斯(Demis Hassabis);右图:约翰•朱姆珀(John M. Jumper)