1990年以来,人类基因组序列已完成测序的和正在测序的共计约330 Mb,占人基因组的11%左右;已识别出与人类疾病相关的基因200个左右。此外,细菌、古细菌、支原体和酵母等共17种生物的全基因组的序列已经测定。1998年5月至9月间,在人类基因组研究领域中连续爆出了三个引人瞩目的新闻,都是向按部就班的研究进度提出了挑战。

1998年5月9日,美国的基因组研究所(TIGR,The Institute of Genome Research)负责人克雷格 • 文特尔(Craig Venter)宣布将同PE(Perkin-Elmar)公司合作建立一家新公司,3年内投资2亿美元,于2002年完成人基因组全序列的测定;除了该公司感兴趣的100个至300个基因的序列将在申请专利后公布外,其它的序列数据每3个月公布一次。这个被称为“全基因组测序”(“full-scale genome sequencing”)计划的进度,比美国政府资助的人基因组计划(HGP)的预定目标提早了3年。为了验证该公司准备采用10倍基因组覆盖的“鸟枪法”测序的可行性,以及PE公司新一代DNA自动测序仪的性能,打算于1999年开始测定黑腹果蝇1.2 x 105 kb基因组的序列作为预试验。这个计划一宣布,在学术界引起了争辩和议论。

1998年8月,美国加州的一家遗传学数据公司Incyte公司宣布计划投资2亿美元,在2年内测定人基因组中的蛋白质编码序列以及密码子中的单核苷酸多态性(SNPs,single nucleotide polymorphisms),最后将绘制一幅人的10万个基因的定位图。该公司测得的序列不公布,要付费才能使用。最近这家公司用3倍基因组覆盖的“鸟枪法”,完成了酵母(Candida alhicans)1.7 x 104 kb 8对染色体基因组的测序。与此同时,在过去几年里与Incyte公司合作测序和克隆基因的HGS(Human Genome Science)公司的负责人宣称,在迄今估计总数为12万个人体基因中,HGS公司已鉴定出10万多个基因,并且已拿到了95%以上基因的EST(expressed sequence tag)或其部分序列。因此,他说:“寻找人类基因的竞赛已经结束”,现在应该重点研究“建立疾病模型和基因的功能”。

在这种态势下,9月14日美国国家人类基因组研究所(NHCRI)和美国能源部基因组研究计划的负责人在NHGRI的一次咨询会议上宣布,政府资助的人类基因组计划(HGP)将于2001年完成大部分蛋白质编码区的测序,约占人基因组的三分之一,将包括人的大部分基因,测序的差错率不超过万分之一。与此同时,完成基因组序列的一幅“工作草图”,至少覆盖基因组的90%,测序差错率在百分之一;2003年完成基因组测序,差错率在万分之一。这个计划改变了前一时期着重于十分精确地测定每一个碱基序列的做法,而把重心转移到受政府资助的各个实验室相互协调、集中力量测定各自分工负责的基因密集区的序列。*这样,在技术上稍加改进后,工作效率即可提高2~3倍。可以提前二年完成计划。

上述三个新闻,勾画出近期内人类基因组研究的发展趋势,即加快工作进程,突出以测定蛋白质编码序列为重点,随之开展基因功能的研究和开发。

人们把基因组比喻为一个大金矿,编码蛋白质的基因就是含金量高的矿石。私人财团愿耗巨资组成浩浩荡荡的淘金队伍,并力图抢得先手,其原因就在于此。

基因组研究的成果对于认识生物的遗传本性,揭示生命世界的一些重大奥秘如生命起源、生物进化、分化发育以及人类思维、意识的产生等,有着重大的理论指导意义,其重要性已毋庸赘言。当前,国际上一批大型制药公司和化学工业公司大规模向基因组研究领域进军,标志着基因组研究可转化为巨大的生产力。由于基因组研究与制药、生物技术、农业、食品、化学、化妆品、环境、能源和计算机等工业部门密切相关,因此已形成了一个新的产业部门即生命科学工业。

当今世界上一些最大的制药集团Ciba-Geigy和Sandoz合资建立的Novartis公司,斥资2.5亿美元建立基因组研究所。Glaxo-Wellcome在基因组研究领域投入4700万美元,将研究人员增加一倍。Smith Kline公司花1.25亿美元扩展人基因组的测序,将生物信息学的研究人员从2人增加至70人,并将该公司药物开发项目中的25%建立在基因组学之上。

另一个突出的标志是大型化学工业公司向生命科学工业转轨的规模和力度远胜于制药工业。孟山都公司于1985年就开始转向生命科学公司。至1997年,该公司向生物技术和基因组研究的投资已高达66亿美元。该公司的股票从1993年到1998年间上涨了3倍。孟山都公司的成功给其它化学工业公司以很大压力。杜邦公司试图仍保持其主要作为化学和能源公司的计划失败了。因此,1998年4月杜邦公司宣布改组成三个实业单位,由生命科学牵头。一周内股票上扬12%。1998年5月,杜邦公司又宣布放弃能源公司Conoco,继续把自身改建成一家生命科学公司。在这种形势下,另一批化学工业公司也进行了改建。Dow化学公司用9亿美元购入Eli Lilly公司40%的股票,从事谷物和食品研究;今夏,又宣布将组成生命科学公司。Hoechst公司则出售了它的基本化学品部门,投资生物技术和制药。还有一批化学工业公司开始转入食品和农业领域的投资。

传统的农业、食品和营养品等经济部门也出现了与生物技术和制药合并的趋势。80年代中期,英国的John Clark开始在小鼠乳腺组织中高效表达人的抗胰蛋白酶基因。1991年又在绵羊乳腺中表达,乳汁中抗胰蛋白酶的含量达每升35克。目前,在羊、牛、猪、兔等动物中表达出可供商业开发用的产品已不下10种,Genzyme Transgenics公司培育出基因工程羊,一群羊生产的抗凝血酶Ⅲ相当于一座投资1.15亿美元工厂的产量。一般估计,转基因动物生产的药物成本是大规模细胞培养法的十分之一。一些公司还在研究生产能抗骨质疏松的谷物,以及大规模生产和加工基因工程食品。

能源、采矿和环境等工业,也已在分子水平上与基因组研究相汇合。例如,用产甲烷菌methanobacterium作为一种新能源。用抗辐射的细菌deinococcus radiodurans清除放射性物质的污染,并在转入tod基因后,可在高辐射环境下清除多种有害化学物质的污染。

人体疾病都是起因于细胞内正常代谢途径发生改变,代谢途径是由基因决定的。因此,不论是器质性病变还是功能性疾病无不与基因密切相关。从这个意义上说,药物设计应该建立在基因组学的基础之上。所以,制药工业也就成为生命科学工业的主要支柱之一。

遗传药物

这是直接以DNA或RNA为靶标的药物。目前已有三类。

“反意”寡核苷酸

一般由15个核苷酸组成,与基因的有意义链即转录链的序列互补,可以抑制基因的转录。或者是同mRNA的序列互补,以阻止mRNA翻译产生蛋白质、寡核苷酸骨架(backbone)上的氧原子如被硫原子取代,会有更好的效果。现在至少已有6种这类反意药物用于癌症和HIV的临床试验。

肽核酸(PNA,peptide nucleic acid)

DNA分子的骨架不再是糖和磷酸根而是肽样结构。PNA可与基因的启动子区结合而启动基因转录。PNA可有效地杀死细菌。在细菌对抗生素的抗性日益增强的情况下,PNA有很好的发展前景。

多氨基化合物(polyamides)

这类化合物的芳香族氨基酸成分可以设计成三种类型,分别专一地识别四种碱基并与之配对。当多氨基化合物进入细胞核后与DNA双链中的碱基结合,自身形成“发夹”结构,阻断基因产物的生成。

DNA疫苗也可算作一种遗传药物,因为它虽然不是以遗传物质为作用的靶标,但却是以遗传物质自身为一种药物。DNA疫苗是个意外的发现。当把阳离子脂质体包装重组质粒注入小鼠肌肉作基因治疗试验时,用裸露的DNA作为对照。结果在小鼠注射部位产生了外源蛋白质,并且对这种外源蛋白质产生了专一的免疫反应。1993年将编码流感病毒抗原的重组质粒DNA直接注入小鼠体内,产生了体液免疫和细胞介导免疫,使小鼠得以抗流感病毒的感染。由此开辟了DNA疫苗的新途径。

DNA疫苗可以减弱对过敏原的过敏反应,也可用来制备生成单克隆抗体的杂交瘤。较之蛋白质抗原,DNA疫苗稳定而且操作简便,不需蛋白质分离纯化等复杂过程。DNA疫苗也可作为“小基因”(“minigene”)用来表达多种不同的肽表位。DNA疫苗在注射后一、二周内产生免疫反应,肌肉里的表达在14天时达到峰值,随后逐渐下降,这是由于Tc细胞杀伤了表达外源抗原的肌肉细胞,可是因为不会全部杀死,所以免疫反应可在低水平上持续几个月乃至一年目前在作临床试验的DNA免疫有抗流感病毒、HIV-1、疟疾、乙肝病毒、癌胚抗原、MHC-HLAB7(作为一种免疫刺激剂以产生对付多种癌症的免疫反应)等。

药物反应的遗传学基础

基因组研究、组合化学和高通量(high throughput)筛选系统三者结合,可以获得许多种新的化学实体(NCE,novel chemical entities)用于药物开发试验。可是,90%左右的NCE在进入临床试验前就遭到淘汰,其原因多半是动物试验或最初的人体试验时出现很高的毒性,另有一些则是疗效不明显。即使是通过了几百名患者的临床试验,在应用于某些人群时,有的药物仍会出现无法接受的毒性。这表明不同的人群,不同的遗传背景对药物会产生不同的反应。此时,在药物设计时,应考虑与遗传有关的三方而因素,即致病有关的等位基因,药物的代谢和药物的靶标。

致病有关的等位基因往往也会影响到对药物作用的反应

例如,等位基因ApoE4与早老痴呆症的发病相关,同时对治疗这种病的药物心的反应有关。又如胆甾醇脂酶转运蛋白(CETF,cholesteryl esterase transport protein)基因、脂蛋白脂酶(LPL,lipoprotein lipase)基因和P-血纤蛋白原(β-fibrinogen)基因的多态性同动脉粥样硬化(atheroscherosis)的病情加重有关,但又同HGM-CoA还原酶的抑制剂的反应有关。

药物代谢的途径与其疗效密切相关

例如,有些结核病患者对一些药物的反应不敏感,进一步发现这同N-乙酰转移酶(NAT-1和NAT-2)基因有关。NAT-2等位基因会造成“缓慢乙酰化”的表型,以致对异烟肼、phenelzine和氨基普鲁卡因等常用的治疗结核病药物的代谢缓慢,使药物分子在体内停留时间延长,随之而来的则是洁除药物毒副反应的速度也降低。这就影响到药物的疗效。又如,细胞色素P450超家族中的一种多态药物代谢酶CYP2D6基因出现缺陷时,会使一部分人出现“低代谢”表型,造成对多种治疗心血管疾病和精神病的药物只能代谢25%左右。

药物靶标

治疗精神病的一种药物(clozazine)作用于5羟色胺(5-HT2A)受体基因编码区和启动子中的一个特定序列。胸腺核苷酸合成酶(TS)和二氢叶酸还原酶(DHFR)基因的过量表达,会使肿瘤细胞获得对5氟尿嘧啶和氨甲喋呤等抗代谢药物的抗性,从而影响药物的疗效。

所有上述三种与药物反应有关的因素都由基因所控制,不同个体可以有不同的等位基因,不同的人群中某一等位基因的频率也不相同,这就出现了对药物有不同反应的结果。基于这样的认识,今后的医疗处方将根据基因组研究的资料而个人化,即因人而异地服用不同的药物。同样地,药物也应该根据计划投放的人群的等位基因频率等资料进行设计。

比较基因组研究与药物分子的设计密切相关。一般说,比较基因组研究是指比较不同物种基因组的异同,目的主要在于寻找物种间共有的,也就是在进化上保守的基因或DNA序列。这种被称为种间同源体(ortholog)的基因往往具有重要的生物学功能,从而可作为药物分子作用的靶标。可是,实际上所有的基因组研究都属于比较基因组研究的范畴,因为不仅每一个物种都有其独特的基因组结构,而且同一种物种内不同个体的基因组也是独一无二的。进一步就功能基因组的研究而言,即使是同一个体的不同组织和细胞,同一种组织和细胞处在不同的发育阶段和不同的生理状态下,尽管基因组结构相同,但同样也表现出不同的活动方式和发挥不同的功能。由此,基因组的结构和功能的研究都是在“比较”过程中完成的。发现异常来认识正常,通过突变型来了解野生型,通过趋异来验证进化上的同源。“有比较才有鉴别”,确是至理名言。

通过物种间基因组的比较研究来分离人体基因及研究其功能,这样的研究思路就好比是“打乒乓”。例如,从模式生物基因组中分离并验明其功能的基因后,回到人体基因组中去克隆其同源基因,并验证其有无类似的功能;从人体基因组中克隆到基因后,回到模式生物中克隆其同源基因,并以模式生物为模型研究这种基因的生物学功能,这可为弄清人体基因的功能提供线索。这么一个回合,将大大促进人体基因的克隆和功能研究。

人与黑猩猩的基因组DNA间的差别只有1.5%。可是,这么少的差别却使人在体态、脑容量、行为和思维等方法与黑猩猩迥然不同。目前已知有些差别可作为发展药物实际的依据。例如,迄今研究过的包括大猿类在内的哺乳动物细胞表面都有一种糖分子-Neu 5 Gc(N-羟乙酰基-神经氨酸),它是在Neu 5 Ac(N-乙酰基-神经氨酸)分子上加了一个氧原子。这种糖分子的功能是信号受体,也是霍乱、流感、疟疾等病原体在细胞表面的立脚点。可是,唯独人体细胞表面的糖分子不是Neu 5 Gc而是Neu 5 Ac。可能正是由于Neu 5 Ac加上了一个氧原子后,改变了分子构型,使一些病原体无法识别这种分子,由此造成了黑猩猩等灵长类动物对这类病原体的易感性远低于人类。在此认识基础上,又进一步追溯到猿类确有一种增加额外氧原子的羟基酶(hydroxylase enzyme)基因,人的同源基因中则缺失12 bp。一些实验室在用小鼠做羟基酶基因的转基因和基因剔除实验,以期确定其功能。又如,人和所有猿类在4号染色体上共有的一段DNA,在黑猩猩中这段DNA出现了倒位畸变,在倒位位置上有一个编码转录因子的基因AF4。这个基因在人的急性白血病细胞中是一个突变型。黑猩猩很少生癌,包括很少患白血病,很可能与这个倒位的基因有关。有的实验室也报道发现了人类特有的与艾滋病易感性、学习和记忆相关的基因的初步研究结果。所有这些基因都可能作为治疗某种相关疾病的药物的靶标。

在细菌、线虫、酵母、果蝇等低等生物中也早已发现了与毒素产生、破坏细胞内信号传导和干扰细胞内生物合成等有关基因,也发现了癌基因和抑癌基因等,这些都同药物设计和医学密切相关。近年来,发育遗传学的基础研究正日益紧密地与医药业相联合。一些疾病本身就是异常发育过程的结果,发育过程是基因时空表达程序的实施,是由基因决定的。同时疾病治疗的主要途径是针对疾病产生的原因,提出恢复或补偿正常功能的途径,其中包括细胞、组织和器官的修复、分化和再生。这些都可从个体发育的研究中得到启迪或真接应用其研究成果。例如,果蝇复眼的发育受Rasl基因介导,这个基因是人体癌基因H-ras、K-ras和N-ras的同源基因。现在已用果蝇眼的表型的改变来研究Ras在发育分化中的功能,并以此为模型来进一步查明人的Ras同源基因在癌变中的作用。又如,果蝇的缺刻翅(Notch)基因竟是处在哺乳动物脑发育过程最上游地位起调控作用的基因。编码Notch的配体的基因发生突变,会造成人的遗传性疾病。

2.1

 

上述的研究结果表明,进化上保守的基因,往往是有重要生物学功能的基因。可是,近来在细菌的比较基因组研究发现这一结论并非是绝对的。将不同种的细菌和支原体共有的,而且功能明确的26个大肠杆菌基因,在大肠杆菌基因组中逐一剔除,结果只有6个基因确是条件致死的,其余的突变型都能在LB培养基上很好地生长。再在枯草杆菌中逐一剔除这26个进化上保守的基因,结果在这6个生死攸关的基因中,只有5个对枯草杆菌是致死的。支原体是能单独生活的最小的生物体,它的基因组共482个基因。受测试的26个基因中23个是支原体基因组中所有的。这些基因对支原体而言是生死攸关的。可是,细菌的进化地位高于支原体,有更大的基因组和有更多的基因,当一个基因失去功能时,可能会有其它基因补偿其功能,因此尽管是细菌和支原体共有的基因,对于细菌来说并不一定是不可或缺的。所以,也许可以得出这样的结论;具有十分重要功能的基因,在进化上是保守的;在进化上保守的基因,可能是有十分重要的功能。

这个结论对药物设计具有指导意义。人们可寻找出对致病菌而言是共有的且是生死攸关的基因,可是对包括人体在内的高等生物来说却不是十分重要的。这样,就可按这些基因为靶标设计药物,服用后既能杀死病菌又不致引起毒副反应。

人们熟知的“癌基因组解剖计划”(Cancer Genome Anatomy Project)主要是比较研究正常基因组与癌基因组中与癌变相关的突变基因、癌基因组的不稳定性和癌基因表达的差别。米特尔曼(Mitelman)等花了25年时间,到1996年6月底收集了26523例75种肿瘤患者的染色体畸变资料,区分出215种平衡的复发型畸变(balanced recurrent aberrations)和1585种非平衡的复发型畸变(unbalanced recurrent aberrations),这也是一组比较基因组研究的资料。

DNA多态性是个体间基因组的比较研究。不同个体有不同的等位綦因和DNA序列,对疾病有不同的易感性。目前最引人关注的是单核苷酸多态性(SNPs,single nucleotide polymorphisms)的研究,认为这是疾病基因定位克隆的有价值的遗传标记。1998年8月27日在瑞典举行的第一届单核苷酸多态性和复杂基因组分析国际会议上,对SNP的用途和需解决的疑题进行了研讨。

总之,人类基因组研究已逐步扩展到各种模式生物基因组,经济动物和作物基因组等的研究,这些将是21世纪生命科学领域中的制高点,将在指导生命科学基本理论研究和发展新的生命科学工业中发挥重大作用。

 参考文献(略)

 [转载《生命科学》1999年第1期]