统计学方法在社会科学研究中发挥着重要作用。作为统计学分析方法的两大主要分支,描述性统计与推断性统计在社科研究中的应用也发生了变化。近日,爱尔兰利莫瑞克大学商学院荣誉教授凯文·墨菲(Kevin Murphy)在伦敦政治经济学院官网撰文提出,随着数据量不断增大,量化社会研究已越来越依赖复杂的推断性统计方法,但同时也不应忽视相对简单的描述性统计。
不同统计方法各有所长
描述性统计是指运用制表和分类、图形以及计算概括性数据来描述数据特征的各项活动,是社会科学研究中的常用方法。英国学者约翰·格朗特的《关于死亡公报的自然与政治观察》可视为描述性统计的开山之作。在书中,格朗特首次将大量数据呈现在一些表格中,让人更容易理解相关信息。
通过统计数据进行推论可以追溯到公元前5世纪。在希腊伯罗奔尼撒战争中,雅典人让士兵数城墙砖的层数,以此计算云梯所需长度。所以推断性统计是借助抽样调查,从局部推断总体,并以此对不确定的事物做出决策的一种统计方法。
描述性统计和推断性统计各有千秋,各有其合理的适用范围。山东大学新闻与传播学院副院长、大数据与精确传播实验室建设项目执行主任倪万表示,描述性统计的应用对社科研究有一定的颠覆性作用,可以帮助研究人员在大数据的基础上更清晰地认知研究问题的整体脉络和样貌,但这不足以支撑甚至代替推断性统计研究。描述性统计和推断性统计不会因为大数据的普遍应用而降低各自的作用,两者各有所长。
避免过于依赖推断性统计
倪万表示,对社科研究而言,大数据生成主要靠文献信息数据化、日常行为的数据化和观点、意见、态度的数据化。其中,文献信息的数据由研究者设计数据采集指标体系,利用相关软件生成,满足研究者描述性分析的目标;日常行为的数据由系统监测自然流动的社会情境而生成,比较容易确证及结构化;而有关观点、意见、态度的数据相对而言有一定采集难度,主要为非结构化数据或半结构化数据,而且这些数据难以结构化。
墨菲认为,当研究人员开始把大数据纳入他们的研究时,用复杂的推断性统计方法来过滤和分析数据的倾向就变得越来越严重。这种统计复杂度的提升可以帮助研究人员探究传统数据分析工具不能充分揭示的问题,但也带来了诸多挑战。首先,当某些研究的统计分析变得愈发复杂,研究人员或研究成果的使用者就越难以理解该研究的内容。其次,有明确证据表明,统计分析越复杂,数据分析和解释中出现重大偏差的可能性就越大。最后,社会与行为科学研究人员常用的许多方法非常依赖“零假设显著性检验”进行统计推断,而这个方法在科学界已越来越不受用。零假设显著性检验是社会科学研究常用的统计推断方法。何为零假设?比如政府针对缓解就业难问题推出了一项政策,零假设就是先假设这种政策是无效的,而显著性检验就是用来推翻零假设的。假设政府的政策无效,那通过毕业生调查得到的就业情况应不乐观,但最后事实是就业率上升了,那么政策无效的可能性就很低了。然而,这种方法已备受研究者质疑,因为统计显著性具有一定的不确定性,不能简单根据显著性结果而判定存在真实的效应。
墨菲表示,统计分析中的关键决策往往取决于一个复杂统计模型中的特殊参数是否具有统计显著性。但统计显著性测试在简单统计中易于理解,当分析变得复杂后,统计测试的关键要素也变得愈发复杂。
倪万提出,过于依赖推断性统计容易陷入盲人摸象的境地,而描述性统计恰好在大数据的支撑下可以与推断性统计结合,避免研究一叶障目。
积极使用描述性统计
倪万认为,在大数据时代,对文献数据进行描述性统计研究不但方便而且对研究对象的分析更为全面,行为数据也会更为精确,对整体社科研究有着基础性作用。对描述性统计而言,大样本量的价值在确定数据分布和相关关系方面作用突出,无论对文献数据、行为数据还是态度数据,整体趋势的分析都比较准确。
墨菲表示,复杂推断性统计方法的缺陷在于,研究人员很难简洁、准确地向研究结果的使用者做出解释,以便帮助他们制定干预措施或政策。在这个意义上,描述性统计体现出其作为交流工具的优势。社科研究人员应充分使用完善的图表等工具,实现与政策制定者和大众的良好交流。此外,准确、全面、正确地描述是所有实证分析的基础。越重视描述性统计,研究产生有益影响的可能性就越高。
友情链接: 中国社会科学院官方网站 | 中国社会科学网
网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号
中国社会科学杂志社版权所有 未经允许不得转载使用
总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026
>