中国社会科学杂志社

首页>中国社会科学报>科学与人文

探索基于重复的实验设计

2021年01月12日 09:47 来源：《中国社会科学报》2021年1月12日第2088期作者：任思腾

　　近年来，一场“可重复危机”引发了科学界的极大关注。该危机的“诞生”源于两类论证。一是统计调查发现，一些已发表的科学研究结果难以被重复实现。在生命科学、生理学、流行病学、生态学等诸多领域，特定研究方向中不可重复的比例甚至可以达到75%以上。二是一部分科学工作者承认自己在日常科研工作中并不会进行重复实验。前者说明了论文数量呈指数形式增加的今天，不可重复问题的规模已不可小觑。后者则引发了更大程度的担忧：如果科学家不做重复实验，那么上述比例可观的不可重复结果将不会受到检验和质疑，从而使科学的进展建立在不可靠的研究数据之上。然而，值得注意的是，虽然科学家受限于时间、资源和发表激励制度等因素，的确很少对别人的研究进行完整复现式的重复实验，但并不意味着科学活动中不存在基于重复的实验设计。在新实验主义和方法论多元主义的科学哲学新视角下，我们可以深入科学实践的细节，理解科学家是如何应对这一问题的。

　　明确重复的目的和意义

　　20世纪80年代在科学哲学中兴起的新实验主义，将传统上理论优位的研究视角转向了具有生命力的实验活动。实验不再被简单地视作一件用于验证理论的经验工具，而是具有丰富的形式和认知意义。基于此立场，我们可以将重复实验按照目的区分为两大类：检验经验现象存在性的重复实验、扩充实验结果稳健性（robustness）的重复实验。

　　存在性检验需要确认现象是稳定的而并非偶然的，以及确认实验流程和参数设置是否准确或冗余。一方面，研究者应当对自己的研究进行存在性检验。一旦获得了初步的现象，就应该进行若干次重复实验来确定现象能够稳定发生。在排除了偶然性之后，仍需要检查实验设计中是否包含了未被注意到的能导致现象发生的因素，这会造成极大的系统性偏差。例如，在一项用荧光蛋白检测细胞活性的实验中，事后发现用于调控细胞活性的复合物本身就可以产生荧光。因此，流程检验需要小范围地改换常用的实验条件，以免陷入“标准化谬论”——越严格的实验条件控制，越得不到可重复的实验现象。

　　稳健性扩充意即寻求足以提供多重决定性（multiple determination）的经验证据。在这一目的下，研究者要在实验设计中引入较大程度的变化，从而扩大现象和结论成立的范围。例如，在生命科学研究中，常见的做法是改换不同性状、物种的实验动物，使用不同类型的表征仪器（如不同原理的显微镜和谱仪）等。由于生物及其分子特征的多样性，利用不同实验对象和仪器进行逐一检验通常是扩大结论稳健性的必然要求。

　　探索不同重复实验方法

　　下面介绍能够实现存在性检验和稳健性检验这两种不同目标的具体实验设计。其中，关于存在性检验，主要介绍微重复实验与大规模重复实验这两种类型的重复实验设计；关于稳健性检验，主要介绍概念重复实验与数据重复实验这两种类型的重复实验设计。

　　微重复实验。在实验过程中通常需要设置严格的实验控制，在设定相关参数和选择实验材料时需要参考前人研究提供的背景知识。然而，研究者在使用这些背景知识时，并不会不假思索地直接应用，而是通过在核心实验干预前实施的空白控制实验进行局部的“微重复”（micro replication），从而获得用于排除干扰的数据本底值。例如，在体外蛋白质结合测定（in vitro binding assay）实验中，考虑到蛋白质的性质对于实验环境（离子浓度、pH值等）十分敏感，必须在进行结合测定前对溶液体系的假阳性控制检验，以及对信号肽标记的假阴性控制检验。这两类检验构成了对所有背景知识的重复实验检测。在上述荧光蛋白研究中，应当对加入活性调控物质但未加入细胞的溶液体系，进行微重复式的检验实验。使用该设计可以避免核心实验部分出现假阳性结果。微重复实验本身作为设置和检验实验控制条件的一部分，普遍存在于一般的实验研究中。与通常对于重复实验的理解不同，微重复并非对于前人研究的完整重复，但是其在新的研究和原先研究之间建立了可重复性意义上的关联，构成了有效的局部存在性检验。这种重复关系可以在引文网络中体现出来。不过，从科研文献的写作方式来看，研究者虽然使用了微重复，但会避免汇报在实践中遭遇重复失败的情形，只会与重复成功的前人研究建立联系。因此，微重复实验不具备甄别和标记不可重复文献的功能，也不能对失败原因进行进一步解释说明。

　　大规模重复实验。大规模重复实验能够对特定领域中的可靠研究结果进行存在性检验，同时也会关注和报告失败的情形，从而在一定程度上填补微重复实验的功能不足。目前，已有不少国际组织正在对学科领域中已发表文献的可重复性进行检验。比如，弗吉尼亚大学心理学教授、2015年《自然》杂志十大年度人物之一的诺赛克（B. A. Nosek）等人建立的开放科学合作组织（Open Science Collaboration），在2012年完成了对数百项已发表心理学实验的重复实验。结果表明，61%的研究未能成功重复。由于该项目中要求重复实验研究组在进行前和完成后与原作者保持沟通，因此有助于防止因实验操作不完善导致的重复失败，也能够进一步通过合作来检查重复失败的具体原因，整体上有益于改善相关领域中研究的可靠性。此外，大规模重复实验有助于通过学术共同体合作来降低重复实验的成本，要避免研究者由于发表激励制度的阻碍而不参与重复实验。长远看来，这有助于降低不可重复文献存在的比例，并且能够及时发现学术造假问题。

　　概念重复实验。概念重复（conceptual replication）常见于心理学、生态学领域，指以刻意改变实验中核心变量取值为前提，试图重现先前研究中的变量关系，即研究的大理论假说相同，“小”假说相似但不一致。比如，在具身认知心理学实验中，同类研究的整体目的是探求身体感知能否影响认知，故采用物体的粗糙程度还是坚硬程度就可以构成一组概念重复实验中自变量的不同取值。概念重复实验通过改变变量的取值类型，使实验结论在更普遍的情形中成立，提高了研究结果的稳健性。不过，也有一些学者质疑概念重复实验的可证伪性。他们担心只有成功的概念重复会被用来支持原始结论，而失败概念重复不能视为对原实验的严格复现，因此无法构成有效力的证伪。虽然如此，成功概念重复仍然是具有认识意义的。

　　数据重复实验。在一些特殊的大尺度实验研究中，原始实验数据无法进行重复测量，此时可以使用数据重复来验证研究结论的稳健性。比如，在对气候变化的研究中，我们希望了解地球表面的温度在过去60年中是否真的上升了。但只有少数几个进行了长期有效观测的研究机构（如东安格利亚大学气候研究中心、英国气象局哈德来中心）提供的原始数据可用，且该数据不可能重新获取。为进行重复检验，美国国家航空航天局/纽约戈达德空间研究所、美国国家海洋和大气管理局国家气候数据中心等不同的研究小组分别独立对原始数据进行了不同方式的处理（如采用不同的拟合方法、划定不同区域计算平均值等），最终验证了该结论的稳健性。数据重复能够充分利用此类珍贵的实验资源，矫正数据测量中的问题，确保实验结果通过稳健性检验。但是，此类研究无法进行严格意义上的重复实验，因此还需要考虑其结论能否与其他来源的经验证据构成一致的科学说明。

　　以上讨论的四种重复实验方法能够实现存在性或稳健性检验的不同目的，同时也有各自的适用场景和缺陷之处。从米切尔（S. Mitchell）、卡特莱特（N. Cartwright）等科学哲学家所提倡的方法论多元主义视角来看，不应在实验设计上追求方法论的黄金标准，而是应该根据具体研究的目的、对象、背景知识等多种因素来评估、改进和发明适用性更高的实验方法。因此，多种重复实验方法的并存是必要的。

　　值得注意的是，本文介绍的重复实验都来自实际的科研案例，但这些并非传统意义上对某项研究的完整复现，而是可以内嵌在一般实验设计中的重复。这也回答了“为什么科学家看起来不会做传统意义上的重复实验”的问题。在理解可重复性时，我们可以不将重复实验看作是附加在常规科研活动之外，而是考察如何将其融入实验设计思路之中。深入理解前沿科学研究中的实验设计策略，可以缓解对科学事业整体上存在可重复危机的担忧。

　　（作者单位：清华大学科学史系）

责任编辑：张晶

重点推荐