2011年至2012年,社会心理学领域先后出现了几件让研究者震惊的事情。先是康奈尔大学的社会心理学家贝姆(Bem)在顶级社会心理学期刊上发表论文“证明”人们可以预测未来,且p<0.05,一时受到了众多研究者的质疑。荷兰社会心理学家斯塔佩尔(Stapel)被举报其在Science杂志上发表的论文存在数据造假,随后的调查表明,斯塔佩尔进行了大规模的数据造假,造假发表的论文高达58篇。此后,耶鲁大学心理学教授巴奇(Bargh)的经典实验——老年启动实验不能被重复,而巴奇对重复研究过激的批评更是引起了众多研究者的关注。
这些事件的发酵,让社会心理学界、心理学界乃至整个科学界都开始关注一个问题——已发表的研究有多少能被重复呢?心理学界对可重复性问题的关注与安尼迪斯(Ioannidis)等对生物医学中可重复性的重视通过网络社交平台而汇聚,引发了大量的讨论。在近十年的讨论中,国际学界不仅形成了关于可重复性的基本共识,也在网络上发起了一场“开放科学”运动(Open Science Movement),对基础科学的实践产生了重要的影响。这场由可重复性问题带来的开放科学运动,给研究者带来了新的机遇和挑战。
探索开放科学新研究实践
开放科学运动中产生的一系列新研究实践,通过学术协会、出版集团、学术期刊以及基金会的政策而发挥作用。这些新实践都旨在增强基础研究中的开放性、透明性、可重复性和包容性。以下将对一些较为重要且被广泛采用的新实践加以简要说明。
一是预注册(preregistration),即将研究方案在特定的网站上进行登记并公开的做法。通过记录研究者初始的研究方法、研究假设、数据分析方案等,能够避免研究者后续因各种偏见而修改研究假设、分析方案等。一种常见的偏见是:根据结果是否显著而修改数据分析方法和收集数据的样本量等。让初始的研究方案保持透明有助于其他研究者更加明晰整个研究的过程。除了研究者自己公开注册外,有的期刊也接受注册报告,即研究者将自己的研究方案提交给期刊,期刊对方案本身的科学性进行评审,如果评审认为研究问题重要且方法得当,则原则上接受该研究。然后,作者进行数据收集,并分析数据、撰写文章。如果后续的数据收集与分析沿着预注册方案的思路完成,则期刊将发表该论文,而不论其结果是否支持研究者所期望的假设。
二是预印本(preprint),即在文章完成后即将其存放于特定的网站上进行公开。预印本可以避免因为审稿周期长而带来的问题,也可以解决首发权的争议。随着开放科学运动的发展,越来越多的研究者倾向于将自己的论文在成文后存放于预印本服务上,如arXiv、bioRxiv、PsyarXiv等;中国科学院图书馆也发展了中文的预印本平台Chinaxiv.org。通过比较有预印本和无预印本论文的引用率,研究者发现有预印本的论文会更多地被引用。
三是开放获取(Open access),即无须付费便可阅读学术论文。其本质在于使基础研究成果——学术论文实现其原有的目的,即让普通公众受益。绝大部分的基础研究是为了拓展人类的知识,其资助方往往是政府或慈善机构。政府资金本质上是纳税人所纳税款的一部分。在传统的西方科学出版模式中,出版集团提供平台,科研工作者提供论文和同行评审,论文经出版集团排版整理后统一出售,研究机构或者大学图书馆再花费巨资来购买。也就是说,公共资金所资助的研究成果,被出版集团经过简单包装和整理后,再次由公共资金购买。在这种模式下,科研工作者在完成同行之间学术交流的同时,顺便将大量纳税人的钱从政府转移到了出版商的口袋,而出版商所提供的服务则主要局限于排版、印刷或者电子资源的聚合等。由此,不少研究者指出应该采用更加合理的方法,避免出版商不当获利,提倡让公共资金资助的科研成果——科学论文为公众免费获取。
四是开放数据(Open Data),即将研究相关的数据进行公开,以方便其他研究重复使用数据或者对论文中的数据分析结果进行重复,检验其可重复性。由于不同研究领域涉及的数据不同,公开的程度也会有所区别。在公开数据的过程中,需要注意个人隐私与数据可及性之间的权衡。也就是说,数据的开放并非是与否的二分,而是一个从完全不公开到完全公开的连续谱。开放数据的好处是可以使数据得以再利用,使研究者能够更有效地利用已有资源,加速研究的进展。
五是开放研究材料(Open Materials),即将研究相关的材料进行公开。不同研究领域所使用的实验材料可能千差万别,但从可重复性的角度来讲,如果实验材料未能开放,研究者可能很难真正地检验研究的方法,从而增加后续研究进行重复验证的困难。
六是开放代码(Open Code),即将数据分析的代码开放。由于数据分析日益复杂,研究者很难详尽地描述其所进行的所有分析,比如许多方法可以通过不同的代码来实验,不同的代码可能会产生不同的结果,因此是否能够重复也很难确定。
七是鼓励重复验证性研究,即学术组织和期刊鼓励直接重复的研究,将此类研究作为对先前结果的检验。其目的在于避免直接重复被忽略而导致科学界失去自我校正的机制。一些心理学期刊,如Psychological Science,已经开始鼓励进行注册的直接重复研究。
八是增强可推广性和样本代表性。这一点主要是在不同的群体中检验某效应是否可以推广。这对于心理学研究尤其重要,因为国际心理学界长期以欧美尤其是北美白人大学生为被试,显然不足以代表全人类的情况。
开放科学有益于基础研究
提高研究效率。由于数据、材料、代码等均可以被重复使用,研究者能够更快地检验自己的研究假设,不同的研究者可以从不同的角度去挖掘同一批数据,新手可以更快地学习,这大大加速了基础研究的进度。同时,开放获取让信息流动加速,能够更快地形成更严谨的做法。
提高研究质量。由于开放数据、开放材料和开放代码意味着更加严格的同行评估,研究者本身也会更加严谨,原有作者团队的数据、材料或者代码中的不足也更容易被发现和改进,因此研究的质量也会提高。对直接重复实验的强调,也有助于直接对原有研究进行检验,从而提高研究的质量。
让研究更经济。数据开放增加了数据的再利用率,减少了收集数据的成本。而增强可重复性的要求,使不可重复的研究避免被当作事实,进而有助于减少后续研究者的跟进和资源投入。
让研究者更健康。加强基础研究的开放性和可重复性,有助于提高研究者的心理健康水平。开放科学强调以批判的精神来看待已发表的研究,使得研究者尤其是职业发展早期的研究者在面临重复失败时出现抑郁和沮丧情绪;而增强可重复性有助于降低研究者重复失败的可能性,从而避免不必要的失败和挫折。
开放科学运动给发展中国家带来了机遇。一方面,在开放科学这种新的科研模式上,发展中国家与发达国家同在一条起跑线上,从而在实践上能够快速采用新的科研方式。另一方面,开放科学意味着大量数据与资源的开放,发展中国家可以更方便地获取资源和科学论文,避免信息和数据不均衡带来的弊端。
开放科学带来新挑战
基础设施。开放科学意味着研究者需要统一的平台来存放数据、材料和代码等电子资源,需要便于使用的基础设施。目前,国际上已经有OSF、INDI、Openneuro、Dataverse等多个针对单个领域的数据平台。如何建设方便研究者使用、提交、维护的公开平台,是基础领域的研究者尤其是发展中国家的研究者面临的挑战,否则只能将本国的数据上传于国际平台。
安全与隐私。开放数据、材料与代码需要考虑保护隐私与保证数据安全的问题。虽然绝大部分公开的数据已经做了匿名化处理,但是随着技术的进步,这些匿名数据有可能在未来不再匿名。如何保证数据的安全性,保护数据提供者的隐私,是数字化时代科学研究者与其他社会成员面临的共同问题,需要在政策和法律层面予以明确规定。
思维定式。开放科学对研究者的思维方式形成了挑战。在传统的研究中,数据收集者倾向于认为自己是数据的拥有者。但实际上,数据的拥有者是数据提供者(受试者)或者提供收集数据资金的资助方(政府或者其他基金)。传统基础研究中,对数据的所有权并没有进行明晰的划分,开放科学时代需要进一步明确数据的归属和公开方式,需要政策上的进一步探索。
评价和奖励体系。开放科学需要新的评价和奖励体系。传统的研究体系中,重视“新”有余而重视“可靠”不足,因此倾向于发表新异的研究,不鼓励重复研究。同时,在对研究者个人的奖励中,重视发表文章而不重视文章背后研究本身的意义。传统研究中的这些做法均与可重复性危机密切相关。开放科学运动需要改变这些做法,这将是一个严峻的挑战。
训练体系。开放科学需要全新的研究实践,这些实践目前还处于探索中。大部分基础科研工作者同时也在训练下一代的研究者,因此如何进行培训也将是一个挑战。
总之,开放科学运动带来的系统性反思,给基础研究带来了重大变化,这些变化对基础研究来说是巨大的契机,也是巨大的挑战。基础研究中的科研工作者,需要积极地迎接挑战,把握契机,做出更好的研究。
(作者单位:南京师范大学心理学院)
友情链接: 中国社会科学院官方网站 | 中国社会科学网
网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号
中国社会科学杂志社版权所有 未经允许不得转载使用
总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026
>