大数据为实证研究提供新方法
2024年03月04日 12:10 来源:《中国社会科学报》2024年3月4日第2844期 作者:本报记者 练志闲

  当前,学术界普遍认识到,传统的单一学科的研究方法已经难以满足当下的研究需求,而随着信息技术的不断发展和应用,大数据为科学研究提供了许多新工具和新方法。作为一种代表性的传统研究方法,实证研究以可观察的经验或数据为基础,再将经验归纳为理论。大数据分析则进一步为其扩大了研究规模,降低了人力成本,提高了研究精准性。围绕传统实证研究的局限与大数据的助益及不足,本报记者采访了英国华威大学社会学系奥古斯特·孔德讲席教授史蒂夫·富勒(Steve Fuller)。

  实证社会研究跟随时代发展

  布拉格查理大学社会科学学院教授海内克·耶扎贝克在《国际社会与行为科学百科全书》(International Encyclopedia of the Social & Behavioral Sciences)中提到,实证社会研究利用实证数据解释社会现象,在社会理论的基础之上验证社会事实和数据、丰富社会理论。从历史上看,实证社会研究的发展分为三个阶段。第一阶段以1895—1929年芝加哥社会学派推动科学程序变革为代表。第二阶段始于20世纪20年代末期,当时社会单位(个人和家庭)的标准化数据被用于市场营销和民意调查,从30年代后期开始,这方面被应用于社会学领域。第三阶段是在分析研究模式中使用相同的海量数据,以检验选定变量之间的因果关系。实证社会研究是指以社会理论为基础,丰富社会理论的实证研究活动。

  富勒在接受本报记者采访时谈到了自己对实证社会研究的理解。他表示,人类是社会的一员,所以在生活中能获得对“人”的理解。而实证社会研究可以通过日常生活经验以外的手段收集关于人的信息。例如,通过定量和定性的研究方法,获取基本信息之外的内容。研究人员通过定量方法衡量、计算人类的各种特征,得出统计数据,或通过定性方法向人们提问。富勒表示,大多数实证社会研究尤其是大规模的研究,大都由国家委托进行,其目的在于更好地了解人们的想法,从而进一步提高治理水平。

  富勒补充到,值得一提的是,“为了进行有效的统治,国家应了解人民的想法”的观点在18世纪晚期才开始在欧洲流行。这也体现了统治者与人民之间观点的差异是一个必须克服的问题,因为人民不再会将这种差异视为统治者更加优越的标志。简而言之,实证社会研究的兴起在历史上与广泛的民主意识有关。也正是在这一时期,学术界开始与政府展开更紧密的合作,提供并解读与社会有关的新数据。

  如今西方的情况有些变化,实证社会研究的发起方逐渐从政府转为商业公司。富勒表示,20世纪初,智库、市场研究、公共关系等领域兴起,数据收集机构希望推广某些理念或产品。自此,人们就逐渐意识到有必要在大众传播的世界中消除杂音,否则会导致信息过多。在三四代人的时间里,报纸、广播、电视和互联网接踵而至,在这种情况下,如何让自己想表达的内容或想销售的产品拥有足够多的受众成为人们重点关注的议题。如今,专门应对这些问题的公司已经成为世界上最成功的商业公司之一,美国的硅谷就是一个有力的证明。可以说,这些公司的实证社会研究能力甚至超过了政府,也有越来越多的学者开始为这些公司工作。

  大数据弥补传统方法缺陷

  为了更好地了解公众的所思所想,政府、企业、学者纷纷开展研究,但传统方法的缺陷进一步暴露。过去的实证社会研究需要研究人员通过发放问卷或访谈的形式,与研究对象产生直接接触。此类大规模调查研究花费的时间、人力等资源成本巨大,限制了研究的规模和范围。

  除此之外,大多数调查问题都围绕对某些话题的看法展开。研究对象对于这些话题或许思考过,或许完全没有考虑过,不知道研究人员为什么会提出这些问题,也不知道这些问题对应的“好”和“正确”的答案是什么。然而,研究人员会事先了解研究对象各种可能的回答,并预判这些回答对研究的意义。富勒认为,这样就构成了知识上的“不对称”。这种不对称在20世纪逐渐被打破,因为人们对实证社会研究的存在逐渐习惯并熟悉,同时开始理解研究人员为什么要从他们那里获取信息。如今,人们可能会出于不信任之类的原因拒绝回答问题,或应付了事直接说出研究人员想听到的答案;即便不存在这些问题,人们在阐述自己想法时依然可能会出现无意识的偏差。简而言之,研究对象的表述和他们的实际行为可能有差异,这些都有可能影响数据的准确性,进而干扰研究结果。

  另一个难题在于研究人员需要判断收集到的信息的相对重要性。例如,研究人员多次捕捉到一个事件,如何判断该事件属于个别事件还是普遍事件,如何判断其之于其他事件的重要性。除此之外,如何判断这些反复出现的内容是真实有效还是道听途说,如何判断其属于一手信息还是二手信息。

  富勒认为,大数据有助于应对这些问题,该技术能成为更有效的方法和工具。长期以来,经济学家们一直在讨论应该相信“表达”的偏好还是“揭示”的偏好。显然,研究对象回答的内容是前者,而通过研究对象自然行为生成的数据是后者。以购买偏好为例,消费者在线交易的时间、平台、喜欢浏览的内容、购买的产品等,都能更好地“揭示”消费者的想法,比其本人“表达”的内容更为真实和全面。

  大数据正是“揭示”偏好的有力工具。富勒告诉记者,大数据是从大量人口中收集到的数据流,这些数据流可在计算机中进行整理和组合,以便展开分析和解读。大数据之所以有助于解决这一问题,就是因为其来源十分广泛,且大多数情况下,这些数据是当事人已经同意其他活动的副产品。例如,当用户使用线上服务时,用户就已经同意让服务供应商随意使用这些数据,平台提供用户之间的联系或线上购物等服务,用户提供相关数据。这些数据能够有效清除研究对象面对问题时的主观想法,避免主观想法和客观行为之间的偏差。

  以开放心态看待和发展大数据方法

  大数据的方法目前并非十分完善。富勒表示,以前如果数据不符合学术界的相关理论,就可能无法使用。在这方面,商业公司的情况也是如此。商业公司会进行数据挖掘以找到促进销售所需的数据,他们忽略的可用数据更多,甚至最终可能忽略了大部分可用数据。然而,随着大数据时代的到来,这种方法的缺陷变得更加明显,因为在大数据时代,因不符合现有类别而被忽略的可用数据数量更加庞大。富勒补充说,已经有一些公司开始尝试解决这一问题,以更开放的心态看待数据。一些从学术界转入大数据分析公司的人进一步拓展其思维模式,抱着所有数据都存在潜在相关性的态度,对数据可能揭示的关系、规则、模式等信息持更加开放的心态。减少对分析结果的预设,或许能带来更多意外收获。

  富勒认为,大数据是实证社会研究的未来,如果研究人员能够更好地生成、解释和使用大数据,每个人都会从中受益、生活得到改善,这也在诸多不同层面提出了治理要求。数据生命周期的每个阶段都存在潜在风险,飞速发展的大数据技术在带来新机遇的同时也为监管提出了新要求。欧盟于2016年通过了《一般数据保护条例》,该条例于2018年正式生效,旨在保护个人数据隐私。中国在大数据隐私保护方面也已经开启了立法工作,包括2016年通过、2017年施行的《网络安全法》、2021年通过并施行的《数据安全法》和《个人信息保护法》。2023年的《数字中国建设整体布局规划》指出,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。在数字中国建设中,保护数据权益、规范数据使用、维护数据安全都离不开数据立法的保障。中国的数字治理生态正在走向更加公平规范的未来。

  在富勒看来,公众和学者之间似乎处于微妙的对抗中,公众出于不信任不愿意配合表达自己的想法。如果单纯从获得信息的角度来看,研究人员似乎需要停止直接询问人们的想法,而只通过间接数据获得信息,毕竟数据能更好地预测人们的行为,而且人们更乐于自发分享数据,但却不太愿意回答被问到的具体问题。另一种可能的方法是让人们接受正规培训,学会思考研究人员的提问并回答。然而富勒认为,该方法也未必有效,因为公众还需要接受自我表达等其他诸多培训。最后,富勒认为,鼓励人们说出自己想法的核心在于,让公众在这个过程中感受到自己被赋予权利而非被剥夺权利。

责任编辑:张晶
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026