贝叶斯因子检验:零假设显著性检验的替代方法
2021年03月04日 09:36 来源:《中国社会科学报》2021年3月4日第2118期 作者:顾昕 张磊

  康奈尔大学社会心理学教授贝姆(Daryl J. Bem)认为,人可以在某种程度上“预知”未来将发生的事情。2011年,贝姆通过九次标准的心理学实验来测试预知是否存在。该研究的九次实验中有八次的结果“支持”了这种预知未来现象的存在。那么,贝姆是如何推断出这个结论的呢?与大部分社会科学和心理学家一样,他采用的是零假设显著性检验(null hypothesis significance testing, NHST)。例如,在第一个实验中,100名参与者须先通过按键来猜测接下来电脑屏幕上哪个位置(左边还是右边)会出现图片。为检验他的假设,贝姆将NHST中的零假设(H0)设定为“参与者猜中位置的概率等于50%,即完全由随机概率水平决定”;而备择假设(H1)则为猜中概率不等于50%。通过数据分析,他们得到p=0.01,小于NHST的阈值0.05,拒绝零假设,从而接受备择假设,即证实预知存在。

  贝姆的研究结果在科学界引起了巨大的反响。原因在于:预知是一种非常反常的现象,目前人类尚未发现生物学或物理学方面的证据支持。但贝姆所采用的方法是社会科学及心理学中的“标准”统计推断方法。那么,问题究竟出在哪里呢?

  研究者们对NHST这一方法产生了更多质疑。实际上,统计方法的研究者们对这个方法诟病已久,只是长久以来他们的声音被忽略了。当贝姆的论文发表后,有方法研究者旗帜鲜明地指出,心理学家需要重新考虑是否要使用“标准”的NHST,因为这类统计方法太容易受到其他因素的影响,很容易让研究者欺骗自己,也欺骗了读者。

  尽管NHST是目前社会科学研究最常用的统计推断方法,研究者通常希望得到p<0.05的结果以证明研究理论,但是这可能导致发表偏差(publication bias)的问题。也就是说,当研究结果显示p<0.05时,论文通常会被发表;相反,p≥0.05无法拒绝零假设的论文通常不会被发表。这样一来,读者可能只会看到那些得到显著性结果的研究,如前文提到的预知实验;而大量未发表的研究结论没有被展示,如后来其他研究者重复贝姆的研究未获得显著结果的数据。这种筛选机制会误导读者对研究问题的认知。心理学可重复性研究项目显示了发表偏差的后果。对于已发表的100个心理学研究的重复实验只有约36%证实了原始研究的结果。发表偏差问题的核心在于预先给定的显著性水平。

  在可重复危机之下,研究者们建议考虑NHST的替代方法:贝叶斯因子检验。以下将简单介绍在社会科学研究中,使用贝叶斯因子如何有助于解决可重复性问题。

  贝叶斯因子是贝叶斯假设检验指标,同样需要界定零假设与备择假设。在上文的预知研究中,零假设为参与者猜中位置的概率等于50%,即H0:预知不存在;备择假设为Hu:预知存在。贝叶斯因子BF0u量化了数据在假设H0下比在假设Hu下更有可能被观测到的程度,换言之,BF0u衡量了H0相对于Hu受到数据支持的程度。比如,BF0u=5表示数据对H0的支持程度是Hu的5倍,即“不存在预知”的证据是“存在预知”的5倍,也即“存在预知”的证据是“不存在预知”的1/5。

  研究者经常问的一个问题是BF0u多大或多小时,将接受或拒绝零假设。比如,基于实验数据分析得到多大或多小的贝叶斯因子,可以证实预知存在与否。这个问题的背后是对阈值根深蒂固的需求,如NHST中α=0.05可以决定是否拒绝零假设。然而与NHST不同,贝叶斯因子是一个连续值,一般不作二分(拒绝或不拒绝)判断,而是量化假设受到数据支持的程度。如果BF0u在1附近,则对零假设或备择假设均没有偏好,即贝叶斯因子无法决定,很可能需要更多的数据来证明哪个假设是正确的。另一个更直接的问题是,贝叶斯因子应该多大(或多小)时,期刊会接受文章发表?早在1961年,哈罗德·杰弗里(Harold Jeffreys)就指出,BF0u>3.2或BF0u<1/3.2表明数据有正面的证据支持假设H0或Hu, BF0u>10则表示有有力的证据。1995年,卡斯(Kass)和拉夫特里(Raftery)则建议使用BF0u>3或BF0u<1/3来表示数据支持H0或Hu。但需要注意的是,这些阈值同样没有严格的理论依据,使用阈值也会导致发表偏差的问题。事实上,阈值的设定是人为的,甚至是主观的。我们更推荐不设置阈值,而是根据贝叶斯因子的实际大小,研究者可做出H0受到数据支持的程度是Hu的x倍的推断结论。不做二分判断以及抛弃使用阈值,能够使贝叶斯因子检验在一定程度上避免社会科学研究的不可重复实现的问题。

  NHST是从零假设出发,讨论其被拒绝的可能性,其结果只能是拒绝或不拒绝零假设。需要注意的是,零假设没有被拒绝并不代表零假设被接受。因此,无论NHST检验结果如何,研究者都不能得到预知不存在的结论。研究者要么得到拒绝零假设证明研究理论的结论,要么无法得到任何结论(研究自然无法被发表),这也是导致发表偏差以及可重复性问题的原因之一。而当使用贝叶斯因子对零假设和备择假设进行评估时,两个假设的地位是相等的,即并不需要像传统的“零”假设那样首先假设零假设为真。在贝叶斯因子的框架下,H0与H1只是两个研究者所关心的假设。通过观测数据结合先验信息,贝叶斯因子能够得出两个假设受到数据支持的相对证据。这意味着贝叶斯因子既可以判定“备择”假设优于“零”假设,也同样可以得到“零”假设优于“备择”假设的结论。将零假设与备择假设放在同等位置,当数据支持零假设时同样能够得到有效的结论,使得分析结果“不显著”的文章同样有可能被发表,也有助于研究的可重复性。

  贝叶斯因子衡量了数据支持或反对某个假设的证据,而NHST中的p值没有关于证据的直接解读(p<0.05只是表示如果零假设为真的前提下出现当前数据或者更极端数据的可能性很低)。从这个角度来讲,p值会夸大拒绝零假设的证据。例如,关于预知研究的九次实验,研究者分别使用NHST和贝叶斯因子分析数据。NHST结果显示,九次实验中有八次得到p<0.05的结果,拒绝零假设,可以推断为“证实”了预知存在。而贝叶斯因子只有3次偏向备择假设(BF0u<1),且都没有BF0u<1/3,即没有足够的证据表明零假设应被拒绝。因此,对于九次实验数据的贝叶斯因子检验,均未发现有证据表明预知存在,这与基于p值的NHST结论完全不同。导致这一结果的原因是p值太容易拒绝零假设,产生了不合常理的结论。

  已有很多软件能够实现贝叶斯因子的计算,包括R包(BayesFactor,bain, BFpack,bayestestR)等。这些软件均能自动设定参数,研究者仅需输入数据并指定数据分析使用的模型(如t检验、方差分析模型),关心的研究假设(如H0:μ1=μ2=μ3,其中μ表示各组均值),即可得到研究假设的贝叶斯因子。值得注意的是,BayesFactor和bain软件包可在JASP可视化统计分析软件中通过鼠标点击与下拉菜单的方式完成数据分析,为尚不熟悉R语言编程的社会科学与心理学研究者进行贝叶斯因子检验提供了方便。

  尽管我们不推荐使用贝叶斯因子阈值进行假设检验,但研究者可能希望在一次数据分析时得到更明确的结论。同时,虽然我们认为使用贝叶斯因子检验假设能够在一定程度上避免发表偏差和研究不可重复性的问题,但不同的参数设定、软件选择仍会导致不同的分析结果。要进一步克服这些问题,预注册研究(preregistration)是当前研究者比较推荐的形式。理想情况下,预注册要求研究者在收集数据之前撰写文章(即预注册报告),说明研究理论、实验设计、数据分析计划,但无须呈现数据描述、数据分析和结论部分。基于预注册报告,期刊将决定该研究是否有发表价值。如果预注册报告被接受,研究者将实际开展数据收集与分析工作,并报告结论,无论得到多大的贝叶斯因子,文章都会被发表。目前,开放科学中心(Centre for Open Science)已提供研究的预注册以及众多预注册模板,也有许多的重要期刊鼓励预注册研究,如Psychological Science、《心理学报》等。

  (作者单位:华东师范大学教育心理学系;维也纳大学心理学院)

责任编辑:张月英
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026