编制出人类基因组全核苷酸序列的计划已使生物学成了一门重大学科吗?一些年前,在这个领域工作的许多人为此感到忧虑(更不用说那些在其它领域工作的人,他们担心支持自己研究工作的经费会被削减)。

可以用这样一幅图景来描绘已被证明为正确的设想,画面上有一排自动核苷酸测序仪,整个场景像是一条未来工厂中的生产线。此外,由于世界上各家制药公司的加倍努力,再过几年这个已经变大的小科学似乎可能变得更大。

但是目前还没有证据表明这些进展对生物学的其它领域或其它学科造成普遍损害。主要进展是私人在各种遗传学研究上的投资增加。时间会说明将来是否有所不同。

测定人类全部染色体上的全部核苷酸序列,这个雄心可以上溯至25年前,当时建立起了测定短的DNA片段的方法(马克森和吉尔伯特两人,桑格一人各提出一种方法)。但是,那时人们最多只敢期望测定噬菌体的小基因组,列出30亿个碱基——整个人类基因组的大致数目——这根本就不敢设想。

难以理解的是,对30亿个核苷酸内所含基因数目仍有争论。最为普遍的估计是总共约有10万个基因,然而许多人认为可能少得多,不能肯定的部分原因是在目前已经测序的整条染色体中(三条来自面包酵母的染色体和线虫的部分基因组),有三分之一至二分之一功能不定。

不论人的基因数目是多少,毫无疑问,整个基因组中的许多DNA在功能上没有直接意义。按每个基因1,500个核苷酸汁,即使有10万个基因,它们也只占整个基因组的百分之五。但是这忽略了由于利用DNA中的反向链存贮基因节约了基因组空间;另一方面,也忽略了每个基因具有一个和转录元件相结合的相当长的前导区的可能性。

克里克曾很出名地把大量不编码基因产物蛋白质的DNA称为“冒充物”。只有完成全部基因组测序计划后才能证明他是对是错。但是预计测定全部序列可以带来的一部分可信度很高的结果是无功能的DNA内隐含着人类的进化历程,它也许能从这些在进化过程中被丢弃的基因序列中反映出来。

测定整个基因组序列只是5年前由美国和称为人类基因组组织(HUGO)的私人国际性机构设计的计划中的一部分,在那个阶段,分子遗传学学会完全注意到了将会遇到的困难,并且提议在一个大范围内推进——测定诸如酵母、曲霉和线虫染色体这些较小基因组的序列。

没有几个更早的技术上的进步,即使是精心提出的计划也难以实施。12年前发展出的人工酵母染色体(它们被称为YACs)技术使把长达100万碱基的DNA片段装入人工合成的构造内成为可能,它能随酶母细胞扩增并且从中回收到相同的DNA分子。这不仅可以用来扩增DNA而且可用来把功能未明的DNA贮存在休眠的宿主细胞内。YACs已经成为实验室间在遗传学方面交流的媒介。

1983年发展出的聚合酶链式反应技术可以扩增较短的DNA片段,为分子遗传学操纵DNA片段提供了新的保证,也为从细胞的mRNA分子中获取基因序列提供了机会。这项技术使J · 克雷格 · 文特尔和他所在的机构美国基因组研究所可以制备对应于各基因末端最多长度为几百个核苷酸的短DNA片段。

这些短DNA片段(称为表达序列标签或ESTs)并不必须对应于完整基因组内的邻接片段。由于它们来自细胞内的mRNA分子,故称之为互补的或cDNA,它们不能表征散布于基因有功能部位之间的非编码序列。

然而,似乎这是制定人类基因组中功能基因索引的最快途径。潜在的困难是它仅是一个有标识的索引,或者甚至只是索引条目的编号。各个基因的全部内容(如果还没有记录在任一数据库中)还有待于基因组中相关部分的详细测序。

但是使用cDNA标签有弊也有益。日本的松原是利用它们来显示不同组织在基因表达方面存在显著差异的首批人员。

文特尔对几十种组织类型(包括不同时期的胚性组织)的研究工作表明人脑中所含的功能未明的基因(或基因标签)最多。这衡量出哺乳动物的神经系统中仍有许多未知领域有待发现。

这种基因组测序方法不仅仅给比较解剖学提供了机会,它还有其它潜在用途。那些对比较进化有兴趣的人会很快采纳用cDNA去测基因的序列,这种想法过分吗?譬如,了解有多少人类的ESTs在猿的神经组织中出现将会成为极有兴趣的课题。

然而终归没有什么能取代人类基因组全序列测定,美国的科学团体对近期的进展表示忧虑,其中部分原因是如果美国国会真的相信测序计划用别的方法而不用预定方法,再加上私人提供的支持能更快完成的话,整个计划的经费将会枯竭。

在项目实施过程中并未谈及人类基因组索引给人类健康带来的益处将是相当大的。它不是要去识别发生突变时会致病的基因,而希望用遗传索引作为了解人体正常细胞生理学的指导。完成基因识别所需付出的努力将远远超出完成人类基因组计划所要付出的努力。

计算方面面临的任务同样繁重,管理存贮核苷酸序列的数据库早已使机器和护理人员不堪重负。它不只是存贮数据,而且还得提供注释大致说明在哪里或是怎样已经获得了相同的DNA片段。

由于需要将长的DNA序列(例如标签代表的DNA)和接近基因组总长的百分之几的基因组片段配对,现在计算方面的问题在激增。需要管理的除人以外其它哺乳类的基因组资源还很难预计。

这是整个计划未被很快就可供使用的基因组的完整索引削弱的另一个原因。实际上,在某些细胞中基因组是作为一个整体行使功能的,发生在人类DNA非编码区的突变也许能达到影响基因组整体功能的精确性和灵活性的程度,所以完全可能,人类的许多疾病的起因只有等全部工作完成后才能查明。