1_副本

张国捷教授

丹麦哥本哈根大学

本期专稿选编了芝加哥大学龙漫远教授和他的学生艾米丽 · 莫尔托拉发表在《美国科学家》(American Scientists)杂志上的一篇关于基因起源研究的科普文章。作者以亲身经历生动地描绘了科学史上关于基因起源假说横跨半个多世纪的争论。从这篇文章中读者可以管窥在科学研究过程中,随着技术进步,科学家对于客观规律的认知如何不断地自我矫正和发展。

基因是一段可以按三联密码编码成蛋白的DNA片段,是维持生命构造和功能的基本单元。然而,并非基因组上的所有DNA片段都能编码成蛋白。以人类基因组为例,我们的基因组大约有30亿个碱基对,平均一个蛋白长度大约300个氨基酸,也即900个碱基。假如我们的基因组上所有碱基都能编码成蛋白,那么理论上人类应该有几百万个基因。然而随着我们对自身基因组的了解,人类基因组上能够编码成蛋白的基因数目已经下调到目前比较公认的21 000个左右,这意味着我们的基因组近98%的DNA序列不会编码成蛋白的序列,而这些序列往往被认为是无用的垃圾序列。

此外,不同的物种含有不同数量的基因。比如鸟类大约含有17 000个基因,而水稻大概有4万多个基因。物种间基因数量的差异提示物种分化的过程中不断有新的基因产生。这些新产生的基因为自然选择提供了新的遗传物种,并在物种分化和适应环境过程中发挥着重要作用。而这些年轻基因也恰好为我们揭示基因起源的基本途径以及起源后的演化过程提供了重要的研究材料。在人类基因组数据公布之前,主流观点基本认同法国遗传学家、1965年诺贝尔生理学或医学奖得主弗朗索瓦 · 雅各布和日裔美籍演化生物学家大野乾等提出的,新基因主要由原先已经存在的基因直接或者复制后变异形成,其功能既不太新也不太重要,基本排除了年轻基因从无到有(de novo)演化形成的可能。

而相比于其他新基因产生机制,从无到有的演化机制无疑是最吸引人,同时也是最难形成基因的一种方式。因为从一串完全随机无序的非编码序列演变成可以符合三联密码结构的蛋白读码框,同时还可以被转录和翻译,这需要有非常多的巧合事件才可能形成。这些巧合事件的存在需要两个重要前提:一是物种在演化的某个时间段存在极高的突变速率,为促使这些巧合事件的发生提供可能;二是该物种承受着巨大的自然选择压力,为新蛋白形成之后能够快速在群体里扩散这一新的基因型提供条件。

所幸,正如美国古生物学家乔治 · 盖洛德 · 辛普森所提出的,生命的演化速率并非一成不变,某些物种类群在某些特殊的演化节点会有快速分化和变异的过程。如同人类社会的历史长河里,我们既可以看到屹立千年亘古不变的欧洲城市,也可以看到像海南三亚这样在短短30年内由小渔村发展成高楼林立的国际都市。为提高发现从无到有这一新基因起源机制的可能性,需要尽量寻找到某个经历过快速变异的物种类群作为研究对象。

为此,龙漫远团队创造性地利用经历过人工驯化的、人们通常只关注其食用价值的栽培稻作为研究对象来攻克这一难题。一方面,从野生稻被驯化为栽培稻只有短短数千年的历史,但是性状发生了巨大的变化;另一方面,人类对水稻经济性状的选择偏好在水稻基因组上形成了巨大的选择压力。最终果然在水稻驯化过程中,龙漫远团队成功地发现了大量由非编码的序列演变而成的新蛋白编码基因,论证了从无到有这一机制对产生新基因具有不可忽略的重要贡献。

龙漫远团队这一发现的成功不仅得益于对研究材料的敏锐觉察,更离不开多学科的协作和新技术的发展。假使没有基因组学和蛋白质组学新技术的出现,我们将难以捕捉到水稻基因组在几千年这一演化历史上极其短瞬时间内的变化过程。诺贝尔生理学或医学奖得主悉尼 · 布伦纳睿智地提出,科学的进步有赖于新技术以推动新的发现,进而推动新思维的产生。这一点,在这篇文章里可见一斑。