以往的科学革命由学术期刊和实验室引领。下一次科学革命也许将由机器人创造。

2.1.1

“通过放大人类的智慧,人工智能也许会开启一场全新的文艺复兴,或是启蒙运动的新阶段。”今年早些时候,现代人工智能的教父之一杨立昆提出了这样的观点。人工智能已经可以令部分现有的科学过程变得更快、更高效,但它能否通过变革科学本身的运作方式做到更多呢?

此类变革在历史上已然发生过。在17世纪,随着科学方法的涌现,研究人员开始更加信任实验观察以及他们从中得出的理论,而非古代流传下来的智慧。科学期刊的诞生为这一过程提供了关键的支持,它们让研究人员得以分享他们的发现,既是为了声明优先权,也是为了鼓励其他人复制和推进他们的研究成果。期刊创造了一个围绕共享知识体系而建的国际科学共同体,激发了大量的科学发现,如今,这一时期被称为科学革命。

19世纪末,随着研究实验室的建立,进一步的变革开始发生。这些实验室是创新之工厂,让思想、人员和材料得以在工业规模上结合。这导致了从化学品、半导体到制药领域内创新的进一步涌现。这些转变并不只是提高了科学生产力。它们还彻底改变了科学本身,开辟了研究和发现的新领域。人工智能要如何才能做类似的事情呢?不仅是产生新结果,还要产生能催生新结果的新方法?

一个颇有前景的方法是“基于文献的知识发现”(LBD),顾名思义,它旨在通过分析科学文献来做出新的发现。第一个LBD系统是由芝加哥大学的唐 · 斯旺森(Don Swanson)在20世纪80年代建立的,它在医学期刊数据库MEDLINE中寻找研究之间的新颖关联。在一次早期的成功关联中,它将两个独立的观察结果——雷诺病(一种循环系统疾病)与血液黏度有关,以及鱼油可以降低血液黏度——关联到一起,并由此提出鱼油可能是一种行之有效的治疗方法。这一假设随后得到了实验的证实。

我们正在为变革的电池充电

然而,斯旺森博士的LBD系统未能在当时的人工智能社群之外流行开来。如今,人工智能系统在自然语言处理方面已经变得比当年强大太多,并且有更大的科学文献语料库可供分析训练。现在,在其他领域,尤其是材料科学领域,对类似LBD的方法的兴趣正日益增长。

例如,2019年,当时在美国劳伦斯伯克利国家实验室的瓦赫 · 茨托扬(Vahe Tshitoyan)领导了一个研究小组,使用一种名为“无监督学习”的人工智能技术来分析材料科学论文的摘要,并将有关不同材料性质的信息提取成名为“词嵌入”的数学表达。这些数学表达将概念放置在一个多维空间中,相似的概念会被分入相同的组。这个系统因此获得了一种“化学直觉”,例如,它可以给出与另一种材料具有相似性质的材料。随后,人工智能被要求举出可能具有热电性质的材料(将温差转化为电压、并将电压转化为温差的能力),尽管文献中不曾指出这些材料是否具有热电性质。人工智能选出十种最有希望的候选材料,经实验测试发现,这十种材料确实表现出异常强烈的热电性质。

接下来,研究人员重新训练他们的系统,在文献库中删去近几年的论文,并要求系统预测会有哪些新的热电材料在这几年里被发现。该系统在预测此类发现方面的准确性是仅凭偶然性预测的8倍。它还可以使用其他术语(如“光伏”)做出准确的发现预测。研究人员得出结论:“这种基于语言的推理方法可以成为自然语言处理与科学交叉的全新研究领域。”

今年,美国芝加哥大学的社会学家贾姆希德 · 苏拉蒂(Jamshid Sourati)和詹姆斯 · 埃文斯(James Evans)在《自然 · 人类行为》上发表了一篇论文,以一种新颖的方式扩展了这种方法。该研究始于这一发现:LBD系统倾向于关注论文中的概念,而忽略了它们的作者。因此,他们训练了一个同时考虑这两个因素的LBD系统。在预测材料科学的新发现方面,新系统的优异程度是茨托扬博士的团队所搭建系统的两倍,并且预测出实际发现者的准确率超过40%。但研究人员随后更进了一步。他们没有跟随研究的主流方向去预测研究人员将在哪里做出新发现,而是要求他们的模型避开主流方向,识别出那些“异质”的假设:这些假设在科学上是合理的,但在正常情况下,人们不太可能在不久的将来发现它们。因此,研究人员认为,该系统既可以加速近期的发现,又可以探测到那些等待研究者做出新发现的“盲区”。

将作者身份纳入考虑的LBD系统不仅能够提出可供研究的新假设,还可以给出现实中不见得认识彼此的潜在合作者。在识别从事不同领域工作的科学家时,这种方法或许会格外有效,从而桥接互补的研究领域。美国南加州大学的计算机科学家尤兰达 · 吉尔(YolandaGil)表示,在人工智能的介入下,跨学科的研究合作“将从罕见变得更为普遍”。随着LBD系统得到扩展,能够处理表格、图片和数据(如基因序列和编程代码),它们将变得更加能干。未来,研究人员可能会依赖此类系统来监控新科学论文的洪流,找出并凸显相关结果,为研究提出新的假设,甚至帮他们与潜在的研究伙伴建立联系,像是“科学相亲”一样。这样,人工智能工具便可以扩展和改造现有的、拥有数世纪历史的科学出版领域的基础设施。

我们充满活力

如果LBD让人们看到了用人工智能大力革新学术期刊的美好前景,那么“机器人科学家”或是“自运行实验室”承诺为实验室做到同样的事情。这些机器超越了诸如药物筛选平台这样现有的实验室自动化形式。取而代之的是,人们以数据、研究论文和专利的形式向它们灌输某一特定研究领域的背景知识。随后,它们用人工智能来形成假设,用机器人进行实验、评估结果、修改假设,并重复这个循环。2009年,威尔士的阿伯里斯特威斯大学制造了机器“亚当”,它对酵母代谢中基因和酶之间的关系进行了实验,并成了第一台自主发现新科学知识的机器。

亚当的后继者名为“夏娃”,它做的是药物发现实验,并拥有更复杂的软件。在规划和分析实验时,它使用机器学习来创建“定量结构活性关系”,即将化学结构与生物效应关联起来的数学模型。例如,夏娃发现,牙膏中使用的抗菌化合物三氯生可以抑制引发疟疾的寄生虫体内的一种基本机制。

剑桥大学的人工智能研究员罗斯 · 金(Ross King)创造了亚当,他将未来的机器人科学家与现在被造来下国际象棋和围棋的人工智能系统进行了类比。曾经人们以为,机器要想击败最好的人类玩家似乎是几十年后才会发生的事,但是技术的进步之速超出了预期。此外,人工智能系统为这些游戏开发出了人类玩家未曾考虑过的策略。当机器人科学家变得更加能干时,可能会发生类似的事情。“假如人工智能可以探索完整的假设空间,甚至扩大这个空间,那么它可能会表明,人类——或许是出于他们自身的科学偏见——只探索了假设空间的一小部分。”金博士说。

机器人科学家还可以通过另一种方式改变科学:帮助解决困扰科学事业的某些问题。其中一个问题是,从各种衡量标准来看,科学的生产力正在下降,推动知识前沿正变得越来越困难、越来越昂贵。对于个中原因,人们提出了数种理论:例如,最简单的发现可能已经被做出,而且如今科学家需要更多的训练才能到达科学前沿。人工智能驱动的系统可以比人类更快、更廉价、更精确地完成实验室工作。不同于人类,机器人可以昼夜不停地工作。正如计算机和机器人已经使得天文学领域的大规模项目(例如大型天空调查或是对系外行星的自动搜索)成为可能,机器人科学家可以解决系统生物学领域的重大问题,比如那些原本因规模之巨而不切实际的问题。“我们不需要全新的科学来解答这些问题,我们只是需要付出极大的工作量。”金博士说。

自动化还可能有助于解决另一个问题:可重复性危机。理论上,当科学家发表他们的研究成果时,其他人可以复制并验证他们的研究。但复制研究无法带来什么荣誉和青睐,因此十分少见。当有人真的去复制研究时,许多尝试都会失败,这表明原始研究是无效的,甚至是欺诈性的。科学家几乎没有动力去重复其他人的成果,他们面临的压力在于发布新结果,而不是验证现有的结果。同样,机器人科学家可以在某些研究领域(比如分子生物学)提供相应帮助。2022年,英国曼彻斯特大学的凯瑟琳 · 罗珀(Katherine Roper)发表的一项研究分析了超过12 000篇关于乳腺癌的论文,并选取了74个生物医学结果,用夏娃机器人对它们进行验证,最终复现了其中43个结果。研究人员得出的结论是,自动化“可能缓解可重复性危机”,而且它“绕过了社会和职业层面对复制研究的抑制因素”。机器可不介意发表验证过往结果的研究。不同于人类科学家,它们也不会因为发表负面结果而感到尴尬——例如,某个特定分子未能与给定的目标发生相互作用。发表负面结果可以告诉未来的研究人员不要做什么,从而减少无谓的努力。此外,机器人科学家能可靠地记录它们工作的每一个细节,这(在理论上)有助于后续的结果分析“人工智能的创新可以在所有的这些领域改进科学事业。”吉尔博士说。

操作自动化能实现了吗?

障碍重重。除了需要更好的硬件和软件,以及两者之间更紧密的集成之外,实验室自动化系统之间还需要更强的互操作性,以及允许人工智能算法交换和诠释语义信息的共同标准。标准化微孔板含有数百个小型试管,允许实验室样品分批处理,它的引入使某些类型的分析生产率提高了几百倍。如今,我们需要在数据方面实现同样的事,例如,生物实验室中,微孔板阵列的大部分数据最终都记录在电子表格或论文的表格中,而这些形式是无法被机器读取的。

另一个障碍在于科学家对基于人工智能的工具缺乏熟悉度。而且,和大多数工人一样,部分研究者担心自动化会威胁到他们的工作。但吉尔博士说,情况正在发生变化。她在2014年调查科学界对人工智能的态度时,发现在大多数领域,“对人工智能的兴趣似乎相对有限”。将人工智能纳入科研的大多数尝试都来自人工智能领域的研究人员,而他们经常要面对他人的疑虑或冷淡。但如今,吉尔博士说,人工智能的影响已经“深远而普遍”。她表示,现在许多科学家在“主动寻找人工智能合作者”。人工智能的潜力得到越来越多人的认可,特别是在材料科学和药物发现领域,从业人员正在构建他们自己的人工智能动力系统。“如果我们能让机器像人类一样擅长科学,那将是一个根本性的突破,因为你可以制造很多这样的机器。”金博士说。

科学期刊改变了科学家发现信息的方式,也改变了他们在彼此工作基础上推进研究的方式。研究实验室扩大了科研规模,并使实验工业化。通过扩展和结合此前的这两场变革,人工智能确实可以改变科学工作的方式。

资料来源 The Economist