人类基因组研究的新热点 ——编制人类DNA序列变异的目录

发布时间：98年04月24日

Francis Collins* 编译顾鸣敏管泽强

遗传因素几乎在所有人类疾病中均起作用，有的表现为易感、有的为抵抗，还有的与环境因素共同起作用。许多公立和私立机构的研究推动了人们对遗传因素致病的认识，从而给疾病的诊断、治疗和预防带来了革命性的变化。理解遗传因素在疾病发生中的作用同时也帮助人们提高对非遗传因素和环境因素致病的认识。

从人类基因组计划中出现的遗传图、物理图和基因识别技术已经为研究机构揭示属于孟德尔遗传的疾病基因起着重要的作用。定位克隆技术（一种根据疾病基因在基因组中的位置及其生化功能而进行的基因识别技术）在1986年首次被成功地应用于人类基因的研究。但到1990年人类基因组计划启动前，应用此法仅找到了为数几个致病基因。然而，到1997年为止，已有将近100个疾病位点通过此法加以识别。

上述富有戏剧性的进展鼓舞了研究者采用相同的策略去寻找遗传上非常复杂的常见病的致病基因，如糖尿病、高血压、哮喘、常见的癌症和某些神经精神性疾病等。相对而言，此法在分析复杂性遗传病中所取得的进展更为实在。成功的原因主要归功于以下两种方法中的一种。第一，类似孟德尔遗传方式的家系中低表现型（如青年期发作的疾病）基因的识别可应用定位克隆策略。然而，只有不到常见病总发生率的10%可采用这个方法。第二，在隔离人群中进行遗传研究。隔离人群含有较低的遗传变异，最终降低了疾病性状在遗传方面的复杂程度。在这种群体中，受累个体共享的染色体片段常能被识别。然而，除了上述

两种方法能检出的病例外，还有一些多基因病易感基因无法通过单纯的定位克隆技术加以检出。因此，人类多基因病易感基因的识别可能要比原来想象的困难得多。

面对困难又重新激起人们应用相关研究策略分析候选基因。相关研究并不需要进行大家系分析，只要比较受累和未受累个体在一个或一组特殊遗传标记中的出现频率。受累个体中出现频率较高的一个标记被认为是疾病表现型和标记之间存在相关的证据。早期相关研究仅局限在多态性数目的分析。最近，技术的发展使该法能用于识别和估计个体的DNA变异，并大大增加了有用多态性的数目，从而提高了研究者使用该法的兴趣。

人类DNA序列中约有8-10万个基因，其中的常见变异尽管较多，但总是有限的。假如能将相关研究的领域扩展到人类基因组中所有常见变异的系统研究中去，这个策略至少在理论上可用于一般基因的识别，也能用于非稀有等位基因所产生的低表现型的识别。近来所获得的大量资料曾被假设为需要相隔许多年，即要在人类第一版基因组序列完成以后（预计在2005年前）才能搞清。然而，最近的三大进展表明系统地编制人类DNA序列变异目录的时候已经来到了。

一

首先，应用全基因组连锁研究与全基因组相关研究所得的结果显示相关研究在分析常见的中低度疾病风险率的易感基因中效果尤其明显。由此提高的作用率或减少对特殊疾病基因的识别中所需要的DNA样本的数量。此外，传统的家系连锁研究不能依靠仅有一个受累患者的家系资料，但用相关研究却是可行的。

第二个推动力是应用单核苷酸多态性（SNPs）进行检测和基因分型这种改良方法的发展。过去检测SNPs的方法主要是从几个个体的DNA凝胶测序得来，故相对而言速度较慢且花费较高。最近出现的比较个体间DNA序列差异的新方法给降低费用和增加大量SNPs的检出率带来了较大的希望。我们预计每年可能产生几千个基因的SNPs，每个SNP的费用大约在100美金到1000美金之间。随着高产量SNP检测技术的成熟，这种速度还有望提高，费用还有望进一步下降。为了用半自动或全自动法检测和记数大量SNPs，又开发了几种可能的方法，包括微型测序策略，多重反相点杂交，DNA芯片和TaqMan技术。

第三，因为SNPs是很具有潜在价值的研究工具，所以它们应当能够尽快做到免费提供，以便使国家和私有机构能马上使用它们。虽然要求把在人类基因组中所发现的常见变异作为知识产权的想法似乎有点奇怪，但一些专利专家认为SNPs（尤其是在蛋白质编码区发现的SNPs或称cSNPs）充满着新奇性、实用性和无明显给予专利权的特性。如果SNP的发展缺少了导向或公共基金的资助，就会使大量的SNPs和cSNPs变成私有机构财产。尽管私有机构的部分结果是“公开的”，仍难免产生知识产权的纠纷事件，由此将阻碍许多研究者使用这些有效的工具。对于随机选择SNPs而言，影响还不大。因为基因组中尚存在几百万个SNPs，私人机构的发现不会马上产生麻烦。然而，SNPs的量并非是无限的。当位于编码序列的大约200，000 cSNPs被发现时，麻烦将是巨大的。

有两种不同的而又是互补的方法可用于全基因组的相关研究。最直接的是编制和检测所有常见的功能变异体。在每个基因中这种情况相对较少；理论上的争论和有限的观察建议在像人类这样的物种里，任何编码序列中的2或3个变异体是较常见的（10%或更高）。然而，并非所有功能变异体均存在于编码区。此外，全长测序仅对人类较小的基因（大约5000 bp）有用，所以这个方法目前尚不能被广泛应用。

与前法相平行的第二种方法涉及覆盖编码和非编码区的SNPs排列的精细图谱的使用。从上述SNPs的精细图谱中能检出受累个体，并能识别靠近易感基因或抵抗基因且相关明显的对照组个体。这个策略是依据如下假说即引起疾病的每个序列变异体都必须出现在过去某个时段内的一个特定个体中，因此该个体变异基因附近的多态性（单倍型）的特殊排列肯定遗传给他或她的所有子代。可辨认的祖先单倍型的存在能成为疾病相关多态性的标志。这个区域的大小（也被称为“连锁不平衡”）将随着变异体的年龄而变化。比较人类1000~10000代前的两条染色体上变异体附近的DNA序列就能粗略估计人类群体的年龄、两条染色体中共享染色体区域的大小，并能确定祖先的单倍型，其平均大小在10-100 kb。这个数字低于近来遗传图的分辨率，所以要构建很高标记密度的遗传图。

二

考虑到以上观点和我们对最常见的人类疾病的认识水平的加深，国家人类基因组研究顾问委员会最近决定要保证马上采取措施开发人类序列变化的目录。

由于这一计划的实施需要丰富的资源，国立健康研究院和其他联邦研究机构应该联合起来资助检测SNPs和cSNPs的工作，并把它们放入公用数据库（如Genbank或GDB）中，且其使用不作限制。国立环境健康研究院已经宣布它将集中资助鉴定基因——环境相互作用中涉及的几个基因中的常见变化，其它机构和组织可能采取相同的策略来列出一系列主要候选cSNPs的目录。

非常希望私有企业能够加入到这一公益事业中来。最近有几例公私合作进行基因组研究的例子，包括华盛顿大学——Merck & CO.合作得到了几十万人类表达序列标签（ESTs），Sandozs药品公司对白头研究所和斯坦福大学基因组中心所作的贡献，还有华盛顿大学-哈沃德休斯医学研究所合作得到了小鼠的ESTs。

也应当立即采取措施寻找检测SNPs的改进技术。同时应瞄准两个目标：（1）建立至少含100，000个SNPs的精细图谱；（2）在尽可能多的基因中鉴定常见cSNPs。这些cSNPs虽然开始并非一个详尽的系列，但它们有直接的生物功能和作用。由这两个建议所产生的资源对于进行复杂生物现象进行遗传分析的研究工作者来说是一个好消息。

[Science，1997年11月28日]

*本文作者为美国人类基因组研究中心主任