更让人忧心的是,人们不愿意对此采取任何行动。

15.1

2011年,墨尔本蒙纳士大学的妇产科教授本 · 摩尔(Ben Mol)无意中发现了埃及一位研究人员发表的一篇关于子宫肌瘤和不孕症的研究论文的撤回通知。发表这篇文章的期刊之所以撤回该文,是因为文中的数据与早些时候西班牙的一篇研究论文数据完全一致,问题在于,西班牙的那项研究的主题是子宫息肉。事实证明,作者只是从有关子宫息肉的那篇论文里复制了一部分,把其中提到的疾病改成了子宫肌瘤。

“从那一刻起,我就对这类事情警觉了起来。”摩尔博士说。他不仅仅是作为已发表论文的读者而警觉。当时,他还是《欧洲妇产科期刊》(European Journal of Obstetrics and Gynaecology)的编辑,并经常为提交给其他期刊的论文做同行评审。果然,很快就有两份明显伪造了数据的论文出现在了他的桌上。他将它们退稿。但是,一年后,他再次读到了它们,它们发表在了另一本期刊上,只是作者对其中可疑的数据做了些调整。

自那以后,他就和其他研究人员合作,对他发现的数据造过假的作者写的论文组进行调查——一查一个准。有些列举患者特征的表格里的数据过于均匀。有些数值从临床角度来看基本不可能。有份论文声称研究对象中的准妈妈是随机选择,但生出的婴儿性别比例却是不可信的40:60。这些论文里时常会出现惊人的临床试验完成速度。

编造虚假

摩尔博士和他的同事已经将他们对750多篇论文的担忧发送给了发表这些论文的期刊。但是,大多数情况下,要么无事发生,要么期刊需要花费数年时间去调查。到目前为止,他们标出的研究论文中只有80篇被撤回。更糟糕的是,这其中的许多项研究都被纳入了系统综述,系统综述是一种对多项研究的摘要,会为临床实践提供参考。

这可能会导致数以百万计的病人接受错误的治疗。比如,医生会为选择剖宫产分娩的妇女注射类固醇,这是为了防止新生儿出现呼吸问题。有人担心它们可能会对婴儿的大脑造成损伤,但这种做法在2018年得到了考克兰(Cochrane)发表的一篇论文的支持,考克兰是一家推广循证医学的慈善机构。然而,当摩尔博士和他的同事们看到这篇综述时,他们发现文中包括了三项他们认为不可靠的研究。2021年,修订后的论文剔除了这三项研究,论文发现,相关药物对这些病例的益处难以确定。

多亏了像摩尔博士这样的侦探,有越来越多部分或全部伪造的论文被揪了出来。“撤稿观察”是一座在线数据库,它列出了将近19 000篇遭到撤稿的生物医学方面的论文。2022年,这一领域大约有2 600篇论文被撤稿,是2018年的两倍多。有些论文被撤稿是出于诚实的错误,但是大多数撤稿论文都涉及这样或那样的学术不端行为。

然而,就算期刊真的撤回某篇论文,这一过程也需要数年的时间。根据这些数字来看,大约每1 000篇论文中就有一篇会被撤回。听起来还不算太糟。然而,基于对此事的各种研究和侦探们的报告,“撤稿观察”的创始人之一伊万 · 奥兰斯基(Ivan Oransky)认为,由于编造、剽窃或严重错误,大约每50篇论文中就有一篇论文的结果是不可靠的。

大多数编造的论文都来自两个源头。其中一些,特别是那些有关临床试验的论文,出自高产的个人或团队欺诈者。那些被摩尔博士发现的就属于这一类。另一些论文更多地以分子生物学等基础科学为主题,它们是由被称为“论文工厂”的机构收费撰写的。通常情况下,编造这些论文的手段是通过复制已发表的论文,并将合法论文中提到的基因或疾病替换成另一种。

根据“撤稿观察”数据库,被撤稿次数最多的200位作者撰写的论文占了全部1.9万篇撤稿论文的四分之一以上。这些最高产的骗子中有许多都是大学或医院的资深科学家。其中很少有人公开谈论他们捏造研究的动机。但还是有些人开了口,而这些人的自白极大地解释了哪些因素可能会推动其他人走上同样的道路。

骗局不休

科学研究是一条艰难长路,对于研究人员提出的大胆假设,研究结果给出的答案往往模糊得让人失望。迪德里克 · 斯塔佩尔(Diederik Stapel)曾是荷兰蒂尔堡大学的心理学教授,在有人揭露他伪造研究后,他有58篇论文遭到撤稿。他在自白回忆录《伪造科学》(Faking Science)中写道,他之所以这么做,是因为这些研究的原始数据无法为研究的问题提供一个“简单、清晰、美丽而优雅”的解决方案。然而,与许多类似的造假者一样,他这样做也是受到了职业晋升机会的蛊惑。所谓“不发表就毁灭”,这句格言反映了学术界的真理。一张长长的发表清单对于晋升或跳槽到其他机构以获得更好的工作而言至关重要。但是期刊更喜欢那些给出强有力、积极结果的研究,这意味着,就职业发展而言,研究人员的大部分努力都是白费的。

发表大量研究报告使得一些欺诈者被视为他们所在领域的著名专家,还让他们享受到了专业声望所带来的特权——至少在事情真相大白之前是这样。牛津大学退休的实验心理学家多萝西 · 毕晓普(Dorothy Bishop)自愿花时间去识别有问题的研究,她观察发现,这些欺诈者常常会领导许多研究小组,或是与其他研究中心建立合作网络。当造假被发现,其后果会波及当事人的这些同事。“很多时候,”她表示,“初级研究人员的职业生涯会因此彻底受阻。”

这在某些国家尤其是个问题。要想在医院获得最好的工作,往往需要多到不切实际的发表数量,而且,在顶级期刊上发表文章的人还能获得巨额的现金奖励。因此,这些国家发展出了繁荣的论文工厂产业,也就不让人意外了。事实上,几乎所有与论文工厂有关的撤稿声明都列出了这些国家的作者。在提交给期刊的论文中,大约五分之一的论文至少有一位作者来自这些国家的机构,然而这五分之一的论文占据了随后被撤稿论文的近一半。

然而,有两本期刊遭到了论文工厂的专门针对,对这两本期刊收到的投稿进行调查后显示,这些造假论文的作者来自70多个国家。而且,尽管出自中等收入国家的假论文数最多,但目前遭到曝光的、影响最为重大的数项造假临床试验却是在美国、加拿大、欧洲和日本炮制出来的。

谁也不知道有多少造假行为是从来没被发现的。毕晓普博士指出,“我们发现的造假论文只有那些造假水平不太高的。如果某人非常擅长造假,你发现不了。”而且害群之马并非只有一两匹。2009年,《公共科学图书馆:综合》(PLoS One)发表了一份有关18项科学家调查的总结报告,这些调查都围绕学术造假展开,参与的科学家大多来自美国。虽然只有2%的受访者承认自己曾伪造数据,但14%的受访者表示他们知道身边有人伪造过数据。同样,三分之一的受访者承认自己曾做过其他可疑的研究行为,比如基于“直觉”放弃不符合研究论点的数据点,或是在研究进行期间对研究方案进行重大修改,但是有72%的人指出他们的同事曾经这么做。

美国在这方面并非“一枝独秀”。在2016年发表的一项针对英国学者的调查中,近五分之一的受访者承认自己曾捏造数据。在最近一项对荷兰研究人员的调查中,来自生命科学和医学领域的研究人员中有10%的人承认他们曾篡改或捏造数据。

许多伪造的论文是对已得到其他研究支持的治疗方案的效仿型研究。在大多数情况下,这些研究不太可能影响临床实践。但是,有些骗子的论文却成了特定医学干预措施的灵感来源,这些措施最终都被证明是无用、甚至有害的。

例如,在过去,医生们有时会为接受手术的危重病人注射淀粉以提高他们的血压。这一措施部分基于德国麻醉学家约阿希姆 · 博尔特(Joachim Boldt)的七项研究,这些研究如今已被证明不可信。在人们发现他的伪造行为后,2013年,《美国医学会杂志》(Journal of the American Medical Association)发表了一份修订后的证据综述,综述显示,在此类情况下注射淀粉会造成肾损伤,有时还会导致患者死亡。

类似地,十多年来,欧洲的心脏病患者都会在手术前服用β受体阻滞剂,目的是减少心脏病发作和中风。这种做法基于2009年的一项研究,但人们最终断定,这项研究至少有部分是基于捏造的数据。据估计,每年仅在英国,这种方法就可能导致了10 000人死亡。此外,曾有一项系统综述显示,注射高剂量的糖溶液可以降低头部受伤后的死亡率,然而,对其进行调查时,人们发现,文中称所有的试验都由同一位研究人员进行,但他们找不到任何证据证明研究人员真的做过这些试验。

无米之炊

要想寻找伪造的论文,通常要首先在无意中发现其中一篇,然后像摩尔博士那样,顺着去找同作者写的其他文章。“许多问题只有在你浏览同一作者发表于不同期刊的论文时才会显现出来。因此,如果你手头只有一篇论文,你未必能够找出其中的问题。”阿伯丁大学的艾莉森 · 阿维内尔(Alison Avenell)如是说。她所在的团队对数个研究小组发表的数百项临床试验表达了担忧。她认为,问题论文的常见特征包括报称自己的治疗方法产生了异常大的影响、试验参与者的中途退出率异常,或是在不同的试验报告中出现了相同的数据。她说:“你会看到一些在统计学层面根本不可能出现的数据。”

卡莱尔(Carlisle)博士和其他人设计了各种统计检查方法,来捕捉单篇论文中的异常数据。作为《麻醉》(Anaesthesia)期刊的编辑,他对2017年至2020年期间提交给该期刊的所有526项临床试验研究都进行了此类检查。当他查看那些作者未曾提交病人个体基础数据的论文时,他发现其中有2%的数据是虚假的。而当他检查了那些包含个体基础数据的论文时,这一比例飙升至44%,其中26%的数据被他判定为“存在致命错误”。

15.2

定期进行此类检查可以阻止大量的伪造文章发表。然而,考克兰机构的莉莎 · 贝罗(Lisa Bero)说,尽管判定期刊论文是否可以发表的评审者会收到所有的这些补充文件和数据集的链接,但他们中的大多数人不会去看。此外,尽管作者们经常说,如有要求,他们会提供论文的备份数据,但2022年进行的一项研究报告称,当其他研究人员提出要求时,93%的作者未能提供备份数据。伦敦卫生与热带医学院的伊恩 · 罗伯茨(Ian Roberts)表示:“你一要求对方提供原始数据,然后,我的老天,你就会意识到我们生活在一个好危险的世界里。”洪水、地震、白蚁、笔记本电脑被偷——他见识过的为数据丢失找的借口可谓五花八门。

白圭之玷

考克兰机构维护着一个有关撤稿研究的数据库,并根据需要对其系统综述进行修订。但是这类综述很少需要修订,部分原因在于线上图书馆很少为被撤稿的论文加上显眼的撤稿标记,因此他人会继续引用这些论文,好像它们仍然是被认可的有效研究一样。漠不关心的态度也是因素之一:即使告诉研究人员他们的论文中包含了造假的研究,很多人也不愿意纠正这个错误。曼彻斯特大学的生物统计学家杰克 · 威尔金森(Jack Wilkinson)表示,这些人的态度是,这份研究在当时是正确的。

例如,阿维内尔博士和她的同事评估了27篇被撤回的临床试验论文的影响,这些论文涵盖了数种医学状况,被88篇系统综述和临床指南引用。研究人员估计,如果将遭撤稿的试验排除,其中一半文章的结论很可能会发生改变。他们将涉事论文被撤稿的消息告诉了所有文章的作者。只有一半的作者回复了。一年后,在那些可能会受到影响的44篇文章中,39篇的作者没有采取任何行动。

近年来,针对论文工厂生产出的文章,人们也发现了类似的令人沮丧的情况。这类论文中有很多都质量低劣,任何认真的研究人员都会认为它们是个笑话,因此它们通常发表在只要给钱什么都可以发的野鸡期刊上,但另一些看起来则足够扎实,甚至会被著名的科学期刊发表。如今,这些期刊发现,它们已经发表了数百篇这样的论文。一项研究对横跨六个出版商和多个领域的期刊提交的53 000篇论文进行了分析,该研究对其中2%至46%的论文做了标记,认为它们存在可疑情况。

分子生物学领域的文章是论文工厂的专长,这类论文中经常加入蛋白质印迹的图片,蛋白质印迹法是一种用于研究蛋白质的实验室技术。例如,在研究某种药物如何影响人类细胞的论文中就可以找到此类图片。世界上没有两块完全相同的蛋白质印迹,因此若有一双锐眼就可以找出复制的图片。伊丽莎白 · 比克(Elisabeth Bik)是一位荷兰微生物学家,现已转职成为专门搜寻造假论文的全职侦探,她在找这类复制图片上就有着卓越的天赋。用她在一篇近期的评论文章中的话讲,她利用“一双匹配图案的锐眼和大量的咖啡因”分析了超过10万篇论文,并发现其中有6 500篇论文存在蛋白质印迹方面的错误或造假的证据。

伪造蛋白质印迹的研究似乎不会像伪造临床试验的研究那样造成严重的后果。但想想最近有关阿尔茨海默病起因的一系列有影响力的论文所引发的争议吧。这些论文的主要作者是明尼苏达大学的西尔万 · 莱斯内(Sylvain Lesné),该大学正在调查此事。

近来,比克博士和其他人在这些研究中发现了他们所说的图像处理的证据,包括蛋白质印迹的图片。其他科学家也曾试图复制莱斯内博士2006年发表在《自然》期刊上的一项具有里程碑意义的研究结果,但都以失败告终。这项研究似乎为一种假说提供了关键证据,该假说认为阿尔茨海默病与大脑中所谓的淀粉样蛋白斑块有关,这也是阿尔茨海默病研究中被引用次数最多的论文。这篇文章可能把所有有关该假说的科学研究都引向了错误的方向,因为它将矛头指向了一种特定的β淀粉样蛋白,也就是导致斑块形成的蛋白。2022年7月,《自然》杂志在调查此事期间发表了一篇表达关注和忧虑的文章。

类似的现象也正出现在遗传学领域中。在去年发表的一项研究中,悉尼大学的癌症研究员詹妮弗 · 伯恩(Jennifer Byrne)带领一个团队,使用他们自行开发的软件“核苷酸查找”筛选了近1.2万篇论文,以检查文中被称为核苷酸序列试剂的物质的相关细节。

核苷酸序列试剂是一种DNA或RNA的短片段,它们旨在结合特定的天然基因物质片段,在很多基因研究中起到重要的作用。“核苷酸查找”从论文中提取这些试剂的序列,将它们与公共序列数据库“Blastn”中的序列进行比较,以检查它们是否与预期的基因靶标相匹配。该团队发现,6%的论文中存在错误,暗示着它们可能是论文工厂的产物。

类似这样的假遗传学研究可能会和那些涉及可疑蛋白质印迹图片的研究一样,造成影响深远的后果。伯恩博士和她的合著者估计,也许有多达10万篇关于人类基因的论文来自论文工厂,而其中四分之一的论文“可能会误导人类疗法的未来发展”。

整肃学界

人们时常断言,科学具有自我纠正的能力。的确,如果有人声称得出了某个结果,而这个结果足够重要,那么人们迟早会发现它无法复制,或是发现后续的研究难以与之相符。不过,短期来看,潜藏于阴影中并非难事。就连数据造假的科学家的合著者们——换句话说,那些与他或她最亲近的人——也可能难以注意到这位罪魁祸首在行恶事。在针对某种特定疾病的复杂研究中,会涉及数种类型的研究人员,理论上来讲,这些研究者并非彼此领域的专家。毕晓普博士观察到,“别人给了你一小部分数据,你就会倾向于相信它。”

此外,即使一篇已发表的论文被标记为包含捏造的数据,相关人员也往往很少启动自纠程序。威尔金森博士表示,在收到提醒称论文存在造假问题时,各家期刊和出版商的反应“大相径庭”:他们是否会进行调查、需要多长时间才能得出结论,以及此后他们会做什么,各家在这些事上都很不一样。

阿维内尔博士断言,根据她的经验,通常需要两到三年的时间,期刊才会刊发关注声明或是撤稿声明。“我们让那些文章被撤稿的唯一途径,就是一遍、一遍又一遍地纠缠这些期刊,”她说,“如果你只是给他们发一封一次性的电子邮件,详细说明你的担忧,那么不太可能会有任何人采取任何行动。”贝罗博士说,考克兰旗下的许多论文作者认为,提醒期刊编辑说自己发现某某研究有问题纯属浪费时间,所以他们不会费心这么做。“我们的许多作者都曾写信给编辑,但要么得不到任何回应,要么编辑不会动手撤回论文,要么对方根本不进行调查。”她观察得出结论。

问题之一在于,各家期刊很少会有具备处理此类问题所需专业知识的员工,比如统计学家。就出版商而言,他们通过出版更多的刊物获利,而不是通过调查可能需要撤回的研究来获利。他们还担心被战斗力过强的造假者起诉。因此,他们常常将责任转移给雇用涉嫌造假人员的机构。

在美国,接受联邦拨款的机构(也就几乎是所有的正经机构)必须遵守政府规定,在收到有关研究学术不端行为的指控后,它们应在60天内进行调查。伊利诺伊大学厄巴纳 - 香槟分校的伦理学家冈萨勒斯(C. K. Gunsalus)曾经做过这样的调查,但她说,许多调查需要花一到两年的时间。

做就是了

在某些情况下,调查的拖延是有充分理由的。原因之一在于,找到能够进行复杂分析的专家很难。另一个原因是,对一份论文的调查可能会牵扯出更多份可疑的出版物。不过,冈萨勒斯博士说,大多数时候,调查缓慢只是因为“没什么可着急的”。调查的目标是要决定一位研究人员是否应该被解雇,而不是为了保卫科学文献的诚实性。在留职/解职的决定做出之前,大学方面通常会保持沉默。

冈萨勒斯博士说,即使在美国,此类调查的质量也往往有很多不尽人意之处。而且很多地方根本没有相关规定。毕晓普博士说,在西方国家,由于研究学术不端而被解雇的人有时会换个地方重操旧业。伊朗卡尚医科大学的扎托莱 · 阿塞米(Zatolleh Asemi)领导一个研究小组发表了一份包含172篇问题论文的清单,新西兰奥克兰大学的安德鲁 · 格雷(Andrew Grey)及其同事指出,他所在大学的7位正、副校长中,有5位是其中至少一篇受影响论文的共同作者。

大学也并不鼓励“吹哨人”们检举揭发,尽管这可以从源头扼制研究造假。大学的规章制度通常会用大篇幅去说明虚假指控可能带来的后果,但很少或根本完全不提醒人们注意学术欺诈行为要付出的责任。

很少有“吹哨人”拥有比克博士那样的毅力。迪迪埃 · 拉乌尔(Didier Raoult)是马赛一所大学医院的教授,现已退休。在比克博士对拉乌尔发表的60多篇论文表示了关注和担忧后,她收到了线上威胁,拉乌尔的一位同事还在推特上发布了她的家庭住址。拉乌尔博士还对她提起法律诉讼,指控她企图敲诈和骚扰。法国政府的下属机构法国国家科学研究中心谴责了拉乌尔的行为,称其是“将科学争议和批评司法化”。2021年,比克博士获得了约翰 · 马多克斯奖(John Maddox Prize),该奖由英国慈善机构“科学智识”和《自然》杂志共同颁发(马多克斯曾在该期刊担任编辑多年),以表彰她“在支持可靠的科学和证据一事上体现出的勇气和正直”。

近来,出现了一些充满希望的迹象。除了扫描撤稿数据库、寻找是否有新内容需要补充,并将新内容纳入数据重新分析外,考克兰还开始检查论文的诚信度。最近,考克兰针对有关预防早产药物的研究发布了一篇论文,并剔除了其中44项不符合诚信原则的研究,这占了起始清单中的四分之一。

与此类似,英国国家卫生与临床优化研究所也为“系统综述检查”项目提供了资金支持,该项目由威尔金森博士负责,旨在为考克兰进行的那类系统综述开发诚信度检查工具。科学技术医学出版商国际协会是一家出版业协会,他们正在研究一种类似的系统,以便检测投稿论文中是否存在伪造内容。领导此项工作的乔里斯 · 范罗瑟姆(Joris van Rossum)表示,这个系统旨在提示编辑,为他们指出论文工厂文章中常见的可疑特征,例如重复的图像、同一篇论文同时提交给数家期刊、履历中没有相关专业知识的作者等等。

威尔金森博士和范罗瑟姆博士都担心造假者和被雇来抓他们的人之间会展开一场军备竞赛。ChatGPT等人工智能工具的日益复杂化则放大了这种担忧。在最近的一项研究中,研究人员要求ChatGPT生成50篇医学研究摘要,结果,人类评审员和人工智能输出检测器都未能识别出其中三分之一的论文是由ChatGPT编写的。

且信且证

然而,说到底,要防止伪造内容进入科学记录,取决于出版商是否愿意提供更多的资源。对临床试验方面的论文进行统计检查通常要涉及烦琐的人工工作,例如在电子表格中输入特定数据等。这将需要期刊雇用专门的员工,因而会削减期刊的利润。

更先进的造假检测方法本身是否能够造成重大的影响?许多曾花费数年时间试图让造假论文被撤稿的学者对此持悲观态度。罗伯茨博士和摩尔博士希望期刊可以得到类似某些国家的社交媒体和新闻业那样的监管,对它们发表的内容建立标准。英国心脏病专家彼得 · 威姆斯赫斯特(Peter Wilmshurst)对自己所在领域的大量研究不端案例发出了警告,他认为应该对捏造数据的人进行刑事处罚。冈萨勒斯博士希望大学公开对研究欺诈的调查报告。并且,每个人都认同这个观点:不发表就毁灭只会将学术界引向灾难。

这些解决方案中没有一个是快速或直接的。但如今,有一件事已经明了:选择对学术造假视而不见正在对病人造成明显的伤害。正如伦敦国王学院的斯图尔特 · 里奇(Stuart Ritchie)在他的著作《科学小说》(Science Fictions)中指出的那样:“为了科学,也许是时候让科学家不要那么信任彼此了。”

资料来源 The Economist