中国社会科学杂志社

首页>中国社会科学报>科学与人文

反思统计方法在心理学领域的应用

2021年01月12日 09:48 来源：《中国社会科学报》2021年1月12日第2088期作者：舒跃育靳佳丽

　　对于心理学实证研究而言，统计方法是一种极为重要的工具。但在这种工具被频繁使用的背后，心理学研究工作者对这种工具的“源头和底层”缺乏深入探究。这导致统计方法未能在心理学中回归其本身的价值和意义。

　　统计方法是心理学的重要支撑

　　心理学作为一门独立学科，其中一个重要的研究方法支撑就是统计方法。百余年来，统计技术的发展不断推动着心理学科的进步。在众多的心理统计技术中，基于样本统计量推断总体参数的统计推断，在心理统计的应用中占据着核心地位，为基于对有限样本的观测结论上升到一般的科学原理提供了可能。

　　在心理学研究中，统计推断的有效性往往通过p值来衡量。长久以来，统计推断的哲学预设、基于p值的统计推断与科学推断的关系，以及滥用p值的可能危害，并没有得到心理学家的足够重视。这导致的结果是，由费希尔（R. Fisher）所倡导的“将p=0.05作为一个主观但实用的水平来判断结果的显著性”成了判断一项研究最终价值的铁律。

　　统计推断，主要包括假设检验、预测、统计回归及统计建模等。其中应用最为广泛的是奈曼（Jerzy Neyman）、皮尔逊（Egon S. Pearson）等人提出的以客观概率为基础的假设检验，这通常又是其他统计推断理论的基础。假设检验在心理学研究的应用中，有一个极为重要的指标——p值，即统计显著性。许多心理学实证研究工作者试图通过比较理论预测和观测数据来评估和检验假设，这项工作所依赖的统计依据就是基于p值的零假设显著性检验，主要包括Z检验、T检验、方差分析、卡方检验及非参数检验等。

　　米尔（P. Meehl）指出，“由于心理学的研究对象很复杂，使得建构精确的理论变得非常困难”。他对比了“软”的心理学和其他“硬”科学是如何检验各自理论的，认为硬科学的研究者往往预测某个特定的值，他们希望可以接受零假设。而心理学研究者通常设立的零假设是，不同条件下无差异或变量不相关，他们希望零假设可以被拒绝。当这个单点假设被证实时，心理学家就认为自己的理论得到了证实，或至少经受住了考验。而零假设的“拒绝”需要一个工具，p值正是这样一个工具。

　　p值遇到挑战

　　近年来，p值不断受到批评与质疑，这些批评与质疑主要针对假设检验固有的局限及研究者的误解误用。而这两个问题同样存在于p值在心理学领域的应用中。

　　一方面，假设检验作为一种统计方法，本身存在问题。穆德（J. Mulder）等人在反思心理学统计方法时总结了对假设检验主要的三个方面的批判，分别是：不能用于量化支持零假设的证据；p值往往高估了与零假设相反的证据——鉴于目前关于心理学可重复危机的讨论；p值是依据极端结果在样本空间上的分布计算的，其大小取决于所抽到的样本。此外，假设检验的过程中需要根据样本推断总体，而这很可能会犯两类错误，即在零假设为真时拒绝接受零假设，以及在零假设为假时接受零假设。

　　另一方面，假设检验在心理学研究中存在误解误用的问题。比如，“p=0.0002”和“p=0.02”之间的差异与“p=0.049”和“p=0.051”之间的差异相比，前者明显大于后者。但在心理学研究中，前者都被视为达到“统计显著性”水平，后者却因“p=0.05”的界限被划分到不同的显著类型中，而与此对应的研究结果也被划分为两类。其次，受“p<0.05”即“统计上显著”的影响，心理学研究者会更加倾向于报告“统计上显著”的结果，而对报告“不显著”的结果有所顾虑。另外，在心理学研究中，p值的统计学意义和对研究的实际意义常常被模糊了，人们常常将“统计显著性”同“结论有价值”相等同。p值的本质是概率，只能作为研究假设是否可靠的一个推论依据，而不是研究结果本身。统计的显著性不能衡量研究结果本身的意义和价值。如哈伯德（R. Hubbard）等人所言，科学推断是一个比统计推断宽泛得多的概念。但在心理学的实际研究中，统计的显著性（即p<0.05）就等同于研究结果本身的显著性。也就是说，在心理学的研究中，研究结果纯粹取决于统计本身，而较少关注研究本身的性质及其与统计工具的契合性。

　　反思p值使用

　　近年来，美国统计学会（ASA）对p值及其相关问题进行了反思。在《迈向超越“p<0.05”的时代》一文中，美国统计学会对p值的使用提出了四条建议：接受不确定性、深思熟虑、开放和谦虚。这四条建议对于统计方法在心理学中的使用和发展同样具有借鉴意义。

　　第一，接受不确定性。我们需要重新认识到，统计推断从来不等同于科学推断。心理学研究报告中应拒绝使用“p<0.05”作为判断研究结果是否有意义的绝对标准，谨慎使用“p<0.05”“统计上是显著的”“*”或其他类似的不严谨表达。使用“p<0.05”很容易使统计意义和实际语言意义相混淆，造成“统计上显著”即“实验假设为真”的假象。当研究者不再迷信“p<0.05”时，统计更能在心理学中发挥其应有的作用。心理学实证研究的意义并非由某个统计度量是否小于一个特定的阈值来判断，而是由研究者及研究的整个设计来判断。

　　第二，深思熟虑。在做研究之前，心理学研究者应清晰把握该研究领域的现状，明确研究的目的，严格、谨慎地设计研究计划，并在已有理论的基础上，通过文献综述、专家意见、同行评阅等方式对研究的可行性及结果进行分析，以增强研究的客观性和有效性。麦克沙恩（B. McShane）等人认为，深思熟虑的研究应该考虑“相关的先验证据、机制的合理性、研究设计和数据质量、现实世界的成本和收益、发现的新颖性，以及其他因研究领域而异的因素……而不优先考虑p值或其他统计度量”。

　　第三，开放。心理学研究因其研究对象的特殊性，即使用同样的研究方法并尽可能地控制各类变量去复制同一项研究，其结果也很难相同。因此，在心理学研究中应主张“一种现象，多项研究方法”，这样更有利于我们从不同的角度审视当下的研究。在报告研究结果时，研究者不仅需要报告p值，也要报告统计检验力、效果量及置信区间等；不仅需要报告对研究结果有利的数据，也要报告不利但重要的数据；不仅需要报告所有数据的分析，还要求提供所有获得的结果。为了科学出版和研究传播的完整性，在决定呈现或突出哪个结果时，不应该考虑p值是否超过某个具体的阈值。对研究结果的全面报告将有利于增强随后引用该研究成果的研究、报道和新闻等内容的客观性。

　　第四，谦虚。心理学作为一门研究人性的学科，其研究结果受到媒体和公众的广泛关注。研究者要清楚地认识到不同的读者会从不同的利益立场理解研究结果。因此，在撰写论文时更应作为一个中立者谨慎地报告研究及研究结果的局限性，以免误导公众。另外，统计工具自身具有局限性，p值、置信区间和其他统计度量都是不确定的。心理学研究者不能通过单一的研究得出一个确定性的结论，而应该保持谦虚，鼓励他人用不同的方法重复自己的研究。

　　总体而言，我们主张的是，在心理学研究中研究者并不需要停止使用p值指标或任一统计方法，而是需要在使用之前明确所使用统计方法本身的局限以及在心理学应用中需要特别关注的地方，从而让心理学研究的“源头和底层”更为清晰。只有这样，心理学研究才更加能够经受时间和实践的考验。

　　当然，任何事物的发展都是螺旋式的上升，而不是一条直线。做出改变不仅需要时间，也需要心理学会、心理学期刊及出版社编辑、心理学研究工作者、教师群体等协同合作。心理学会及各分支学会应做好“上传下达”的工作；心理学期刊及出版社编辑应严格把关论文的质量；心理学研究工作者在撰写论文时应接纳“接受不确定性、深思熟虑、开放、谦虚”的建议；教师群体应适当调整自己的教学内容，从而走出“我们使用‘p<0.05’是因为老师这样教，老师这样教是因为我们这样做”的循环。只有各机构共同发力，才能让统计方法在心理学领域回归本位。

　　（本文系国家社科基金项目“心理学学科分裂危机的理论根源及整合的哲学基础研究”（18BZX048）阶段性成果）

　　（作者单位：西北师范大学心理学院）

责任编辑：张晶

重点推荐