基因组革命

  (续上) DNA测序技术由于揭示了原先并不了解的基因之间的相互联系而立即震惊世界。两个较早的例子是致癌基因sis erbB。一个研究组克隆了这些基因并测定了它们的DNA序列。同时,另一个主要从事生化研究的小组分离了两种蛋白质——血小板生长因子(PDGF)和表皮生长因子(EGF)——并测定了两者的氨基酸序列。令这两个研究组人员惊讶的是,致癌基因的DNA序列与这两种控制生长的蛋白质的氨基酸序列几乎完全一致。这就立刻表明,是致癌基因siserbB使正常细胞转变成癌细胞的。

  发现这样的联系还只是开始。对基因序列所做的比较显示,如酵母菌和哺乳动物这样的远缘生物的基因组都编码了十分相似的蛋白质。控制酵母菌细胞通过其周期性生长和分裂而不断增长的蛋白质,也发现以相似的形态存在于人类细胞中。不久,这种交叉联系发现了几千个,后来又发现了几万个。这就清楚地表明,地球上生命的进化是异常保守的。一旦真核细胞在15余亿年前演化产生,那时产生的蛋白质绝大部分都会在其无数后代细胞中持续存在——只偶有微小的变化。通常,编码这些早期蛋白质的基因在10亿年后会增殖、分化,造成许多相关基因以及具有不同以至全新功能蛋白质的大家族。

  由于一个基因家族的功能常可从其已知的亲属中推导得知,鉴别基因家族就产生了巨大的研究效用。

  例如当引起膀胱纤维化的基因被克隆以后,序列分析就可立即告诉我们它属于一个负责运送离子通过细胞膜的蛋白质家族——实验室测试很快证实了这一结论。

  种系遥远的基因联系还促使生物学家们对他们的研究工作进行重新思考。从事蠕虫类、蝇类研究的人不再只是着眼于这些生物的特性,而是把他们的工作看作探索地球上生命普遍规律的窗口了。从事海胆和蛙类发育研究的人发现他们自己来到了肿瘤研讨会之中,与肿瘤研究工作者们使用共同的语汇来对蛋白质进行描述,这些蛋白质在早期胚胎发生中和人类恶性肿瘤发育中具有同样重要的作用。

  序列分析还由于可以依据基因的相似性而不是依据生物的性状来描绘种系树,使进化研究发生了革命。到20世纪80年代,由于获得了大量序列数据和有了成熟的计算机分析工具,完整的生命树的枝叉重新画出来了。

  单个基因研究的收获是惊人的,但这方面的成功不久又激发了更宏伟的想象力:对全部基因组系统进行研究,后被称为基因组学。开基因组学先声的是一个建议,主张用DNA技术来将斯特蒂文特原来关于基因图的设想扩展用于人类。1980年,· 博茨坦及其同事提出,可以通过追踪共同DNA序列变异的遗传,来构成一幅完整的人类染色体的基因图,这种DNA序列变异称为DNA多态性。每一多态可用作染色体基因图上某一特定位置的序列标志。这样,人们就可通过对比基因图上有标志DNA序列的遗传方式,来为导致人类疾病的特定基因定位。

  这一战略最早成功于1983年,这时导致亨廷顿氏舞蹈病的基因在人类第4染色体的短臂尖端被标出。具有400个指示标志的人类总体基因图构成于1987年;具有1万个以上指示标志的更详细的基因图于10年后获得。随着导致1000种以上人类疾病的基因在染色体上的特定位置被标出,医学遗传学发生了革命。

  1985年,有人甚至提出了更大的奢望:弄清楚全部人类基因组的序列,从而提供一份包括每一个人类基因的完整目录。初看起来,这个建议是不切实际的,逻辑上不可能的。人类基因组含有30亿个DNA碱基;那时的测序技术一次分析只能读出约300个碱基的长度。要完成这—任务显然需要大批专家几十年的工作。

  再者,还有人认为,人类基因组排序也是一项吃力不讨好的工作,因为大部分基因组——可能达95%——并不编码蛋 白质或调控信息。这些序列被贬称为“废基因”。他们问道,花费很大的力气去求得生物学意义甚小的DNA的详细序列又何必呢?

  然而,上述建议还是得到了广 泛的响应。经过几年争论,原先的计划被修改成为若干个阶段性规划。在着手人类基因组以前,先攻克几种重要实验生物细菌、酵母菌、蝇类和蠕虫类的较小的基因组。这可以成为一种先导性工作,用以完善对基因组信息进行自动化测序和计算机分析的工具。1990年,有关力量在国际《人类基因组计划》中组织起来了,这是生物学为研究生命而创造一个大规模的基础结构的第一次尝试。

  首先实施的计划是完成对酵母菌cerevisiae 1200万个碱基(Mb)的基因组的测序,一条条染色体的基因组序列在几十个实验室的通力合作下于19921996年间获得。1995 年产生了第一个完整的细菌基因组——1. 8Mb的流感嗜血菌。这是由单独一个实验室用“鸟枪”技术产生的,即将整个基因组任意地予以粉碎,再将其片段测序,重新组合成一个协调一致的具有基因组长度的序列。

  这一实验结果使细胞生物学为之改观。生物学家们第一次能列举出一个活细胞所需要的全套基因和蛋白质了。这里包括真核细胞和原核细胞所需要的基本装备部件。

  到1998年,第一个多细胞生物基因组——线虫caenorhabdifis97MbDNA序列详图发表了。20世纪行将过去的时候,芥菜arabidopsis thaliana 和黑腹果蝇的基因组测序工作也近完成。一个长期被怀疑的结论,终因这些工作的成功而得到了确切的证实:形成如果蝇这样的复杂生物(有13000 个基因)所需要:的模板基因数目不会比单细胞的酵母菌基因组中的6000个基因超过多少。

  测序工作的步伐加快了。人类基因组的序列有望在今年获得其粗略轮廓,不久可全部完成。生物学家们已开始考虑把一个生物基因组的完整序列,作为研究工作必不可少的起点了。

未来:生物学的整体观

  获得生物体全部构件清单,或者说获得它们的全部基因以及蛋白质目录的可能性,使生物学家们转向于生命过程的整体观察一研究全部基因和全部蛋白质的共同作用。20 世纪生物学因专注于分析复杂生物学系统的单个成分而取胜; 21 世纪生物学则将日益把研究的焦点集中到整个生物学系统,试图了解系统的组成部件如何协同成为一个整体。100 年来第一次,还原论者们向试图获得细胞和组织的整体景观的人们让出了阵地。

  新的思路展示了十分广阔的前景;同时,这也造成了有可能使科学家们淹没在数据之中,并为解释数据而搞得筋疲力尽的危险。各种基因组研究产生的数据无疑需要有效的新的生物信息科学来进行消化和解释。以下,我们描述几种已经眉目清楚的整体景观。

  人类基因组序列一旦获得以后,接着应做的工作是弄清楚人类基因库中基因变异的频谱及其与疾病的关系。令人惊异的是,由于人种出现的年代较近,这个问题并不难以解决。现有的60亿世界人口是由大约20万至15万年前生存在非洲的几万个祖先传下来的。这样少的人口只能产生有限的基因变异——基因组中每——基因的编码序列一般只会有少数共同变异体。而且,随后发生的几千代人口的指数增长,在进化的时间尺度上也为数过小,不足以改变共同变异的频谱。因此,现代人类人口的种内基因变异要比黑猩猩少。最近的实验结果已证实主要基因只有有限数目的共同变异体,这就展示了这样一种前景,即有可能编出全部人类基因的全部共同变异体(等位基因)的目录。

  这种共同变异体引起了广泛的兴趣,因为它们可能对某些疾病的先天易感性具有决定作用。已知的例子有阿朴蛋白质E基因的共同变异体与早老性痴呆病、凝血因子V基因的共同变异体与血栓的易感性的关系等。有的人类遗传学家相信,这些例子还只是冰山之一角,今后的任务是鉴定全套变异体然后测定其与疾病的关系。

  正如人种内所作的比较那样,种与种间所作的比较也会揭示很多东西。进化是基因中巨大数量的序列变异在选择的熔炉中经受考验的一项伟大试验。不同生物之间在进化上的比较可以揭示那些对蛋白质结构或基因调控具有重要作用,因而能在进化的发展过程中保持不变的序列。这样就能弄清楚重要基因和蛋白质的功能特性,避免长年累月的实验室辛劳。

  对序列作进化上的比较,应能使我们识别对创造新物种具有决定意义的基因;这些基因可能已经过了严格的选择和更迅速的序列进化。发现促成我们祖先和黑猩猩之间的物种特化的基因和基因变化,将是十分诱人的。

  整体研究对了解细胞和生物的生理机制也非常重要。这里的关键是我们要有能力来测定一个细胞中哪些基因可被读出(表达),而哪些则是不能表达的。

  如能成功地监测细胞和不同组织中每个能表达的RNA和蛋白质水平及其在应答不同生理信号或各种疾病状态时所产生的变化,研究工作将登上一个新的台阶。现在,研究人员已能测量约1万个已知基因(总数的10%)中的每一个基因相关的RNA水平;对于已表达的蛋白质混合物也有了多种研究方法。

  由于一个细胞内已表达的蛋白质的频谱对细胞生物学起决定作用,这方面的全面描述将为精确了解为什么脑细胞有别于肾细胞等等提供基础,这样就可对疾病状态的生物学标志进行识别。这样就可以帮助我们对肿瘤进行分类,从而了解肿瘤的家系,了解导致其显现的基因突变的性质,并在长时期中了解它是否会对特定的治疗手段作出反应。这样还能揭示病原体是怎样攻击寄主,以及寄主是如何对入侵的病原体进行防御的。

  经常不变地相互作用的蛋白质是彼此沟通的,因此又开发了多种可用于识别这些相互作用的技术。由此获得的显示这些相互联系的图像,可使人看清楚活细胞内传送和加工信号的通道设计。

  长期目标是应用这种知识去重构细胞内复杂的分子电路系统一绘出相互作用的蛋白质网络,这种网络决定各种细胞功能,包括细胞增殖、生理应激反应,以及获得和维持特定组织的分化功能等基本原理。更长远的目标是创造这些生物学电路系统的数学模型,从而对细胞的生物学行为作出预测。

  实现这些目标需要更有效的手段,既能进行高度仪表化的检测,又能进行有效的生物学信息计算机处理,后者现已成为一种家庭工业。生物学家们将需要专一的基因试剂来阻断细胞内每一种 成分的功能,并研究每一阻断对其他细胞和蛋白质的影响。现在正在寻找一种通用的技术以便能以专一的、高度有的放矢的方式阻断细胞间的电路。要阻断人体细胞内每一个基因的电路是困难的,但不是难以逾越的——毕竟,人体基因只有约10万个,随着时间的推移,这个数目似乎并非不可战胜。

  生物学有史以来第一次持着最初由希波克拉底和亚里士多德所作的神秘教导之书进入了本世纪,这将使我们在解释生物世界的巨大复杂性时走得多远?我们难道能凭着已知的DNA顺序来绘出一只原生动物或一只孔雀吗?在世纪之交,我们要回答这些问题是颇感困难的。但我们将满怀乐观地前进:许多长期不能攻克的难题都已攻克了,21 世纪生物学的前景无疑会是令人鼓舞的。

  同时,我们又必须清醒而又怀着某种不安地来面对即将到来的世纪。基因诊断使病人有可能寻求个性化医疗,也可能引起基因歧视。了解人体基因电路系统可为无数疾病提供医治方法,也能使某些人认为人类不过是摆弄与生俱来的DNA磁带的机器——人的精神和人的潜能是被束缚在双螺旋链之中的。因此,基因组学将对我们选择何种观点来观察我们自己和观察你我彼此,产生深刻影响。面对这些挑战,我们需要经常保持警惕,以免我们会有朝一日不再知道我们为什么会在这里,我们是谁,以及我们希望变成什么。

  [Science2000 35]