蛋白质三维结构的解析对于深入理解蛋白质功能和生理现象起着决定性作用。一般实验室解析某个蛋白结构,需要花费数年时间,而人工智能公司DeepMind新研发的AlphaFold似乎能破解这一难题。

总部位于英国伦敦的人工智能公司DeepMind成立于2010年,2014年被谷歌公司收购,曾一度凭借其在“与人类对弈”方面的超神表现轰动全世界。

2014年,DeepMind开始研发人工智能围棋软件AlphaGo。

2015年10月,AlphaGo以5:0击败蝉联过三届欧洲围棋冠军的法国围棋队总教头樊麾二段。

2016年3月,它又以4:1将世界冠军李世石九段挑落马下。

2017年5月,当时排名世界第一的柯洁也败给了这位人工智能对弈大师。

2018年12月,DeepMind在《科学》上发文介绍了能在无任何人类输入的条件下快速自学围棋的AlphaZero,其算法还可延伸至日本将棋和国际象棋。

2019年1月,人工智能游戏大师AlphaStar在《星际争霸II》中以10:1轻取人类职业玩家。

……

而近两年的DeepMind已经不再满足于打造能在智力博弈中战胜人类的人工智能,他们将目光投向了生物学领域的老大难问题——预测蛋白质结构折叠。

大多数生命体的运转都以蛋白质为核心,蛋白质的功能由其结构决定,搞明白蛋白质分子怎么折叠(或者说自我组装),对于分析蛋白质功能,阐明其作用机制,理解许多生命现象(例如,胰岛素调控血糖水平以及抗体反击冠状病毒的过程)的本质至关重要。

预测蛋白质结构折叠被列为“21世纪的生物物理学”的重要课题,但同时这项课题难度很大,人类提出了不少理论,也使用了很多技术,例如快速核磁共振和快速光谱技术,用于帮助判断复杂结构,但始终在这条道路上走得很吃力。

目前科学家们已经确定超过200万种蛋白质,但其中只有一部分是人类已知的。确定蛋白质结构折叠的传统方法是在实验室里借助各项设备进行观察分析,研究过程费时费力,往往需要花费数年时间。

20世纪80~90年代的计算机科学家在理论计算蛋白质三维结构方面取得一定进展,但对于实现真正的高效预测仍难有助力,要知道蛋白质的肽链可以折出天文数字级的形状个数。这个天文数字大概会是多少呢?也就1后面跟300个零吧……

这一说法来自美国分子生物学家塞勒斯 · 莱文塔尔(Cyrus Levinthal)。研究了30多年蛋白质的他于1969年指出:一个典型蛋白质会有10300种可能的结构,如果用穷举法列举全部,所需要的时间比已知的宇宙年龄还要长。

DeepMind相信机器的深度学习可以极大提高蛋白质预测效率,并以很高的效率证明了自己的理念。

2018年12月,DeepMind推出的初代蛋白质结构预测系统AlphaFold准确预测了25种蛋白质的结构(合计预测了43种)。

今日,DeepMind宣布,他们的二代AlphaFold在CASP14(对蛋白质结构预测进行评估,被誉为蛋白质结构预测的奥林匹克竞赛,每两年举办一次)中展现出堪比晶体X射线衍射技术的预测能力,得到92.4分的平均分,预测复杂蛋白质的能力评分高达87分。更关键的是,AlphaFold有能力预测一些复杂的细胞膜蛋白——尤其是古细菌膜蛋白——的结构。

英国皇家学会主席文卡 · 拉玛克里希南(Venki Ramakrishnan)称这项工作“取得了惊人的进步”,“把很多人预想的未来提前了数十年”。

DeepMind的研究人员将一个包含约17万个蛋白质序列及其形状的公共数据库作为训练素材(中等训练量,相当于100~200个图形处理单元)训练AlphaFold数周

很多同行表示,这一突破将帮助我们弄清某些疾病的发病机制,并为设计新型药物、营养价值更高的农作物以及消除塑料污染的“绿色酶”奠定基础。

DeepMind表示,他们已经开始与部分科研团队合作,重点开展针对疟疾、昏睡病和利什曼病(一种寄生虫病)的攻关。

DeepMind的创始人兼首席执行官德米斯 · 哈萨比斯(Demis Hassabis)表示,研究团队已经将AlphaFold应用于科学研究。马克斯·普朗克发育生物学研究所主任安德烈 · 卢帕斯(Andrei Lupas)则声称,他已经使用该程序算出了一种困扰同行近十年的蛋白质结构。

DeepMind团队的研究员约翰 · 詹普尔(John Jumper)说道:“看到CASP竞赛的结果后,我们确信人工智能真的推动了生命科学领域。不过这还远非终点,未来的研究将集中于蛋白质如何结合形成更大的‘复合体’(四级结构)以及它们如何与生物体内的其他分子相互作用。”

END

参考资料:

DeepMind AI cracks 50-year-old problem of protein folding