计算社会科学:一种新研究范式
2020年11月18日 09:57 来源:《中国社会科学报》2020年11月18日第2050期 作者:朱萌 龚为纲

  计算社会科学是大数据时代的产物,目前计算社会科学更多地被理解为一个利用计算的方法开展社会科学问题研究的新兴领域。2009年2月,以David Lazer为首的15位学者在Science上发表题为“计算社会科学”的观点性文章,标志着这一领域的诞生。时隔10年,这些学者再次在Science政策论坛发表文章,反思计算社会科学研究领域的不足和问题,同时提出若干建议。作为一个崭新的研究领域,通过“10年回首”的方式进行自我反思,清理研究领域所面临的若干问题,对于学科未来的发展很有必要。本文试图通过回顾计算社会科学过去十多年的相关实证分析,对计算社会科学研究方法领域存在的若干争论进行分析,以呈现此领域在当前所面临的若干挑战。

  迥异于传统小数据

  无论是一般意义上的社会科学,还是计算社会科学,其量化研究都奠基于数据资料。单从名称上看,“大数据”好像是在强调比传统量化数据具有更大数量/规模,但二者之间在数据的性质上、与研究的关系上均存在质的差异。一方面,两种数据的性质决然不同。在一般社会科学中,数据是指数值型数据;而在大数据语境下,数据的类型和结构的复杂程度都要高很多,既包括文本、图像、视频、音频等非结构化信息,也包括空间位置、复杂序列等高度复杂信息。另一方面,从与研究的关系看,传统量化数据是出于特定研究目的而运用实验、问卷调查等方法有计划地观测的结果。换句话说,数据的生产本身就是研究的一部分。然而,由于大数据时代数据的生产和社会科学研究的数据挖掘成为两个相对独立的过程,研究与数据的生产关系被改变甚至倒置了——从生产数据转向挖掘数据。

  因此,相对于传统的小数据而言,大数据绝不仅意味着更多的数据,还意味着在产生方式、形态、维度、结构、分析方法、与科学研究的关系等方面都完全不一样。从方法论来看,基于大数据的社会科学研究,实际上代表了一种全新的社会科学研究范式。

  辩证看待客观性

  一部分学者认为,“自然发生性”(naturally occurring)是社会科学大数据的一项基本属性。无论是互联网中的数字痕迹、物联网中的信息数据,还是行动者的邮件、聊天记录等都被认为是在未受干预的状态下自然发生的,反映着行动者的真实状态。与之相比,传统研究方法所收集的数据会明显受到调查者干预效应或自我报告/社会期望偏差效应的影响。除物联网数据挖掘外,上述观点在关于社交媒体数据的部分实证研究中同样被接受。这部分学者将从Facebook、Twitter等社交网站采集的数据视为人们实际行为和情绪的“痕迹”(traces)或者“征候”(symptoms),而网站本身则被认为是中立的服务商。这一立场预先假定了数据和用户之间的关系是不证自明的,认为通过研究数据就可以预测个体(和群体)的行为。在已有的大数据研究领域,预测功能被放在绝对优先的位置,通过对政治社会现象进行预测以解决一些社会、政治和商业问题。相对而言,解释的功能被放在相对次要的位置,甚至被忽略掉。

  然而也有学者对“自然发生论”提出了批评,如J. Dijck(2014)指出该立场暗含着这样一种信念,即数量化是客观的,通过在线数据能追踪所有人的行为是可能的,(元)数据是可以被分析和处理成关于人类未来行为的预测性算法的“原材料”。然而,在笔者看来,这种观念在本体论和方法论层面都无法立足。在本体论层面,这种观念所宣称的数据客观性是不存在的。比如,Facebook和Twitter不停地调试,将友谊、受欢迎程度等转换成某种算法,同时把这种算法称为“社会的”价值观念。“点赞”和“热门话题”这样的网站按钮虽然可能被认为是自然的在线社交活动,但构成这些按钮的算法是精心调制出来用以引导人们点击响应的。在方法论层面,对数据“原材料”的分析和解释,必然会聚焦于某个问题,并采用某种分析工具。因而,要使数据模式变得有意义,需要批判地质问:我们为谁的利益、为什么目的来寻找海量元数据。

  笔者认为,可一分为二地看待大数据的客观性。一方面,从产生过程来看,相对于小数据,大数据是在社会生活的数字化过程中产生的巨量信息,研究者未予干预,因此具有客观性。另一方面,由于不同类型的大数据产生渠道、生产逻辑有所不同,研究者可在研究过程中将数据生产逻辑纳入考量范围,并分析数据生产形态对研究结论可能产生的影响,也可尽量通过数据清洗方法和算法对数据中的噪音进行清理。比如,就社交网络大数据而言,可能有“水军”、聊天机器人等因素在数据生产过程中发挥重要作用,进而使得数据中充斥虚假信息等,这时研究者需要通过算法将这些不能反映真实民意或用户特征的信息剔除。

  代表性有待数据持续积累

  不只是客观性,代表性(或偏差性)也是大数据性质争论中的一项重要议题。在《大数据时代》一书中,迈尔-舍恩伯格(Viktor Mayer-Sch?觟nberger)等(2012)将“更多不是随机样本,而是总体数据”列为大数据思维的首要内容。他们认为,大数据时代的到来不仅意味着数据规模的增大,在特定情况下甚至能够收集到关于某一现象的全部资料。那么,大数据范式下的“总体”完全就是真正意义上的“全部”吗?如果不是,那这个“总体”的代表性又如何?

  对于上述“总体”论观点,E.Hargittai(2015)就提出了强烈质疑。在他看来,如果“总体”假设成立,那就意味着可以通过大数据分析得出广泛的、一般性的结论,哪怕用来分析的数据局限于特定的社交网站或服务项目。然而,无论这些网站或项目具备多么大的用户规模,对这些用户的研究都会很自然地遗漏或排除掉非用户群体;而且,不同网站的用户偏好、特性和对互联网技术的体验(如使用频率与熟练程度)都会进一步削弱数据的代表性。

  一些实证研究也表明了“总体”观的可疑性,如Brenner等在2013年就发表了一篇题为“72%的成年网民是社交网站用户”的研究报告。仅从标题中便能看出,网民人数不等于总人口数,而社交网站用户数甚至都不等于网民总数。所以说,仅依靠社交网络大数据展开的分析明显不属于“总体”分析。由此可见,在“科学”的意义上,大数据未必就能够比小数据避免更多的研究偏误;而在具体研究中,无论数据大小都要根据其取样框架来谨慎推导结论。

  基于大数据的分析结果是否具有代表性?或者说,基于大数据分析的结论是否是无偏的?这个问题可从两个方面来看。一方面,不同的渠道和平台产生的数据在接近总体的程度上可能是有差异的。比如,以社交媒体大数据而言,有些平台的用户数可能更接近总体,而有些平台的用户数则只是一部分社会成员。一种可能的研究路径是,将这些来自不同渠道的数据分析结果进行比对,或者以拼图的方式逐步接近总体真实,进而对分析结论的稳健性和可靠性进行检验。另一方面,从长远趋势来看,随着社会生活的数字化转型,各种平台的用户规模也在不断增长,用户逐步接近全体用户,同时这些平台在社会生活中所发挥的作用越来越大,因此,基于这些大数据所刻画的社会系统的规律与特征也就更加重要。

  计算与理论互相促进

  按照Anderson(2008)的说法,由于大数据可以“自己发声”,社会科学即将进入一个“理论终结的时代”。此观点一经提出就遭到了许多学者的质疑。例如,《大数据时代》一书虽然声称要终结因果分析,以便“让数据自己说话”,但也承认因果关系的终结并不等于理论的终结,“大数据时代绝对不是一个理论消亡的时代;相反地,理论贯穿于大数据分析的方方面面”。理论在数据挖掘、数据分析、数据理解这三个环节都扮演关键角色。数据自己不可能“说话”,而只有经过理论指导的分析才能“说话”。即便是数据挖掘阶段,也有赖于统计工具和数据模型的使用,而模型的建立、参数的选择等都离不开理论的指导;挖掘出的数据更要依靠理论思辨。然而,当前的大数据研究,特别是国内的大数据研究,颇有些迷信“让数据自己说话”而忽视甚至轻视理论的倾向。

  计算机科学家格雷(Jim Gray)曾在2007年提出大数据是“第四研究范式”的观点。根据该观点,人类历史上先后有实验、理论推演、电脑仿真三种科学发现范式,而在大数据时代一种被称为“数据密集型科学发现”(data-intensive scientific discovery)的第四范式到来了。该观点虽然突出大数据在科学探索过程中的驱动作用,但并不否认理论的指导意义。第四范式的精髓并不是用大数据完全代替前三种范式中的实验、理论和模拟,而是在新的基础上将它们与数据统一起来。第四范式中的“格雷法则”正是理论发挥引领作用的体现。

  实际上,计算与理论的关系不只是指导与被指导那么简单,计算反过来还能推动理论的验证和发展。具体来说,计算社会科学为以往研究结论与社会理论的检验提供了不同于实验法和抽样调查法的“第三条道路”。不仅如此,随着时间的推移,具有较强时效性的社会科学大数据也会逐步变成多时间序列的、超高维的“纵贯数据”。从科学发现的角度来看,这些“纵贯数据”蕴含着巨大的理论价值。

  推动多种研究方法融合发展

  随着大数据时代的到来,传统的实验法与抽样调查方法是否过时?原有的认识路径“理论假设—模型—检验”的套路是否要被放弃?传统分析范式与大数据新范式是替代关系还是互补关系?很多学者倾向于将传统的实验法、抽样调查法、通过人工编码进行内容分析的方法和大数据框架下的计算范式(如机器学习、神经网络、自然语言处理)结合起来,并强调这些不同的研究方法之间的互补性。但很多大数据范式下的实证研究倾向于认为,传统的研究方法、研究逻辑和认识路径基本上已经过时。借助于海量数据和强大的复杂算法,研究者可以在没有理论的前提下在很多研究领域做出精确预测。还有些研究者认为,应该将传统分析方法的理论驱动与数据驱动结合起来,通过双向互动,有机融合推进计算社会科学研究。不过也有学者认为,随着人工智能的进一步发展,计算范式极有可能在社会科学领域产生一种研究方法上的革命,基于小数据的分析范式一统天下的时代可能一去不返。

  综上,作为一个新兴的综合研究领域,计算社会科学的发展不仅面临着大数据是否可以有效刻画社会系统运行并对社会事实进行有效分析的问题,同时在研究方法上,也存在与传统研究方法或竞争或相得益彰的关系问题。对于这些研究方法上的争论性问题,研究者只能在社会科学的实践中进行回答。在大数据、云计算与人工智能等技术应用于社会科学的研究过程中,计算社会科学的方法论也会逐步走向成熟。

  (作者单位:湖北经济学院财经高等研究院;武汉大学社会学院)

责任编辑:张月英
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026