8.2.1

规律间隔成簇短回文重复序列(CRISPR)技术面临一个问题:资源多得让人为难。

自从这种基因编辑系统声名鹊起以来,科学家一直在寻找具有更高精度和准确性的变体。

一种搜索方法是在细菌和其他生物的DNA中筛选与CRISPR-Cas9相关的基因。另一种方法则是在实验室中人工改进CRISPR组件,使其具有更好的治疗功能——比如让它们在人体内拥有更高的稳定性、安全性和效率。

这些数据存储在包含数十亿基因序列的多个数据库中。尽管这些数据库里可能隐藏着奇特的CRISPR系统,但要搜索的条目实在太多了。

由麻省理工学院和哈佛大学合作成立并由CRISPR先驱张锋博士领导的团队从现有的大数据方法中获得灵感,利用人工智能对海量的基因序列进行筛选,将范围缩小到了与已知CRISPR系统相似的仅仅数种序列。

该人工智能工具搜索了开源数据库中的基因组,这些基因组源自多种罕见细菌——包括那些从啤酒厂、煤矿、寒冷的南极海岸以及狗唾液中发现的细菌。

在短短几周内,该算法就锁定了数千个潜在的新“生物学部件”,它们可以组成188种基于CRISPR的新系统,其中包括一些极其罕见的系统。

其中有几个新候选者格外引人注目。例如,有些变体可以更精确地锁定目标基因进行编辑,且副作用更少。另外几个变体虽然不能直接使用,但可以帮助我们了解某些现有CRISPR系统的运作方式——比如,那些针对RNA的系统。RNA是一种“信使”分子,指导细胞从DNA中构建蛋白质。

“生物多样性真是一座无尽的宝库。”张博士说:“进行此类分析是一举两得的事:既能研究生物学理论,也有可能发现实用的东西。”

大肆搜寻

尽管CRISPR因其在人类基因编辑方面的威力而闻名,但科学家最初是在细菌中发现了这个系统,它在细菌中被用于抵抗病毒感染。

长期以来,科学家一直在世界的各个角落收集细菌样本。得益于越来越便宜和高效的DNA测序技术,这些样本中(有些样本来自诸如池塘淤泥等意想不到的地方)有许多已完成了基因蓝图绘制,并被存入了数据库。

张博士对于搜寻新的CRISPR系统并不陌生。2023年早些时候,他在接受《麻省理工学院新闻》采访时说:“几年前,我们开始发问,除了CRISPR之外还有什么?自然界是否存在其他可通过RNA编程的系统?”

CRISPR由两个结构组成。一个是“搜寻犬”向导RNA序列,通常约有20个碱基长,针对特定的基因。另一个是类似剪刀的Cas蛋白。一旦进入细胞,搜寻犬找到目标,剪刀则剪掉基因。至于该系统更近期的版本,如碱基编辑技术或先导编辑技术,则使用不同类型的Cas蛋白来执行单字母DNA交换,乃至编辑RNA目标。

早在2021年,张锋的实验室追溯了CRISPR家族树的起源,确定了一支全新的家系。这类被称为OMEGA的系统使用外源向导RNA和蛋白质剪刀,但仍然可以轻松地剪切培养皿中培育出的人类细胞里的DNA。

最近,该团队将他们的搜索扩展到了生命形式的新分支:真核生物。这个家族成员(包括植物、动物和人类)的DNA被紧密包裹在坚果状的结构内。与之形成对照的是,细菌没有这些结构。通过筛选真菌、藻类和蛤蜊(是的,生物多样性又古怪又神奇),该团队发现了他们称之为“Fanzor”的蛋白质,这些蛋白质可以被重新编程,以用来编辑人类DNA,这是第一份证明真核生物中也存在类CRISPR机制的证据。

但是,我们的目标并不仅仅是搜寻新的、酷炫的基因编辑器。应该说,我们的目的是利用大自然的基因编辑能力来构建一系列各具特长的基因编辑器,它们可以治疗遗传疾病,并帮助我们了解人体的内在运作原理。

总而言之,科学家已经发现了六种主要的CRISPR系统,其中有些与不同的Cas酶合作,另一些则专门针对DNA或RNA。

张博士说:“大自然太神奇了。它有着如此的多样性,可能还有更多可通过RNA编程的系统存在,我们正在继续探索,希望能发现更多。”

生物工程拼字游戏

这就是张锋团队构建新人工智能算法FLSHclust”的目的。他们将分析庞大数据集的技术(如软件突出显示大量文档、音频或图像文件中的相似部分)改造为一种搜寻CRISPR相关基因的工具。

一等到该算法设计完成,它就分析了来自细菌的基因序列,并将它们分组——有点像是将不同颜色排成彩虹,也就是把相似的颜色组到一起,这样就更容易找到你想要的色调。从这里开始,团队便专注于寻找与CRISPR相关的基因。

该算法检索了包括数以十万计来自细菌和古菌的基因组以及数百万个未知DNA序列在内的多个开源数据库。总的来说,它扫描了数十亿个蛋白质编码基因,并将它们分组成大约5亿个聚类簇。在这些聚类簇中,团队确定了188个尚未有人将之与CRISPR建立关联的基因,这些基因可以构成数千个新的CRISPR系统。

其中有两种系统分别源自动物肠道和黑海中的微生物,使用了32个碱基长的向导RNA,而不是CRISPR-Cas9中通常使用的20个碱基长的向导RNA。它就像搜索查询词一样,长度越长,搜索结果就越精确。这些更长的向导RNA“查询”表明,这些系统可能具有更少的副作用。另一种系统则类似此前的某个基于CRISPR的诊断系统“夏洛克”(SHERLOCK),它能快速感知来自感染性入侵者的单个DNA或RNA分子。

在培育的人类细胞中进行测试时,这两种系统都能够剪切目标基因的单链,并以大约13%的效率插入小的基因序列。这听起来也许不算多,但它是一个可以被改进的基准数据。

该团队还发现了一种新的CRISPR系统的基因,它针对的是科学界此前未曾发现过的某种RNA。仔细观察后,研究人员发现,这一版本以及任何尚未发现的版本似乎都难以通过在世界各地采样细菌来捕获,因此在自然界中极为罕见。

研究作者苏米娅 · 卡南(Soumya Kannan)博士表示:“这些微生物系统中有一部分只存在于煤矿的水中。如果不是有人对此产生兴趣,我们可能永远也无法看到这些系统。”

眼下,要确定这些系统是否可以用于人类基因编辑还为时过早。例如,那些随机切割DNA的系统对于治疗而言并无用处。然而,人工智能可以挖掘庞大的基因数据来寻找潜在的“独角兽”基因序列,该人工智能如今已向其他科学家开放,供进一步探索。

资料来源 Singularity

——————

本文作者范雪莱(Shelly Fan)是一名神经科学家出身的科学作家。她的第一本书是2019年出版的《人工智能会取代我们吗?》(Will AI Replace Us?