数据决定命运,算法改变未来。以ChatGPT、Gemini为代表的大语言模型横空出世,并以风卷残云之势席卷全球,引发产业与科学研究范式变革。这充分说明大数据的巨大潜能,也生动说明算法改变历史的巨大威力。因为大语言模型产生的基础就是大数据,而让数据发声并让数据变成模型的,是算法和云计算,尤其是云计算所提供的天文量级算力让大数据得以产生“核聚变”。
那么,在这样的历史背景下,以大数据开发为基础的计算社会科学面临怎样的新形势呢?如何在这样的重要历史关头,推进中国计算社会科学发展,并充分释放新技术革命对社会科学研究的赋能效应?本文试图就上述两个问题做一些分析。
大语言模型对以往计算社会科学研究算法的优势
以大数据开发为基础的计算社会科学大体是10年前被提出,并作为一种学术理念广为流行。当时学术界提出这一理念的愿景是,随着人类社会的数字化转型,各个领域的大数据层出不穷,为社会科学研究观测社会系统和人类历史提供了前所未有的机遇,社会科学研究也由此而面临从小数据范式转型升级为大数据范式的变革。不过,时过境迁,10年过去,计算社会科学并没有出现人们所预期的繁荣景象,计算社会科学领域所产出的重要学术成果依然是寥若晨星,人们并没有看到大数据给社会科学研究所带来的希望的春天。
为什么会出现这种情况呢?核心的原因是计算社会科学领域所利用的早期人工智能算法的能力限制。大数据为观测社会现象提供了丰富的矿藏,但是早期的人工智能算法对这些“矿藏”的挖掘能力却非常有限,或者说,面对浩瀚的数据海洋,研究者只能望洋兴叹,能够做的也只是对大数据做一些比较表层的分析和开发,进而极大地限制了计算社会科学潜能的释放。
其中的逻辑在于,大数据往往是非结构化的,我们所在星球上95%以上的数据都是以文本、图像、视频和音频等为表现形式,而且体量巨大,动辄形成GB、TB、PB甚至更大的数据规模。而在大语言模型崛起之前,研究者开发大数据的方法主要还是抽样时代所形成的统计学算法与相对简单的机器学习算法。
以文本大数据的挖掘为例,要对文本大数据进行分析,一般需要完成实体抽取、情感计算、文本聚类与文本分类四大任务。在过去10年,依赖于词频统计、tf-idf等算法对文本数据进行“远观”,相关研究如Scott A. Golder(2011)等人关于人类情绪的研究;通过正则表达式、Stanford-NLP等算法对文本进行实体抽取,相关研究如Maximilian Schich(2014)等人关于人类文化发展变迁的研究;通过标注数据和机器学习算法训练模型进行情感计算;通过词袋模型(bag of words)、词向量模型(word2vec)与Bert算法等对文本进行嵌入式表示和数字化转换,借助于K-Means++算法以及LDA算法对文本进行主题的聚类,相关研究如Austin C. Kozlowski(2019)等人利用Google books语料库分析阶层含义的变迁;通过标注数据、Bert算法等对文本进行向量化表示,借助于CNN、RNN等算法训练模型对文本进行语义分类,如龚为纲(2019)等人利用Bert算法对新闻中的西方话语进行语义聚类。这些算法能在表浅层面对文本数据做一些挖掘,但终究离真正理解文本语义还有遥远距离。以词袋模型和Bert模型为例,前者是以单词出现的情况而对文本做向量化转化,后者尽管考察了单词在语境中的相对关系,但是并没有真正实现文本的语义理解,依靠这些算法所训练的机器学习模型也面临迁移能力不足等重要问题。另外,这些算法对研究者编写计算机代码的能力要求较高,这使得计算社会科学方法让人文社科学者望而生畏。
正是因为早期算法能力的欠缺,限制了计算社会科学实现其价值,正如一句流行语所言:我们在大数据的金山上,却只能去挖煤。计算社会科学因为算法能力的限制,在过去推进缓慢,甚至长期徘徊。
不过这一切正在成为过去。随着大语言模型崛起,大数据分析很快从“冷兵器时代”转型升级到“热兵器时代”,计算社会科学领域正在发生改天换地般的新变化,计算社会科学研究的方法体系正在日趋成熟。
这是因为大语言模型本身是大数据+算力+算法的产物,以GPT4和Gemini等为代表的大语言模型的训练数据几乎涵盖地球上所有公开数据集,最为关键的是,这些模型不但掌握天文量级的知识,而且具有强大语义理解能力和逻辑推理能力。这就使得,反过来借助于这些大语言模型对大数据进行开发变得极为有效和便捷。一方面,借助于大语言模型,无论是对文本,还是对图像、视频和音频等非结构化数据进行处理,都变得简单可行;另一方面,相对于计算社会科学早期算法,通过大语言模型对非结构化数据进行处理,不但操作简单,而且十分便捷,研究者再也不用通过标注大量数据去专门训练机器学习模型,再也不用通过掌握复杂的编程能力去写代码。简而言之,有了大语言模型,对大数据进行开发就变成了写prompt和对大语言模型进行微调,进而大大降低了进入大数据开发领域的门槛,带来算法的民主化,而且也大幅度提升了大数据开发的效率。
还是以文本大数据分析为例,文本大数据分析的四大任务中,前三大任务借助于大语言模型已经可以非常完美地完成,而第四大任务,借助于嵌入模型和深度学习模型也可以轻易解决。简而言之,借助于生成模型、嵌入模型和深度学习模型这三大模型,已经可以近乎完美地解决文本大数据分析的四大任务,文本大数据分析的功力也得到成千上万倍的增长,图像、视频等非结构化大数据的分析任务也一样,通过三大模型可以得到便捷有效的处理。
算法的颠覆式变革让大数据终于从沉睡的资源变成了科学发现的金山,浩瀚的数据海洋也因为算法的变革而成为可以自由探索的乐园。最为关键的是,大语言模型的出现,带来算法的民主化,大数据分析和开发不再是少数掌握编程能力的学者之专利,而是成为能够为所有人文社会科学研究者赋能的重要工具。
综上,大数据与大语言模型的结合,让基于大数据分析的计算社会科学研究方法体系日渐走向成熟,大数据+大语言模型所形成的数据智能,也必将对社会科学研究范式产生深远影响。基于大数据+大语言模型开展对社会系统以及人类历史的观测,必然将社会科学研究推进到层出不穷的社会科学规律被发现的新时代,社会科学研究也即将进入其“开普勒时代”。
推进计算社会科学发展的路径与策略
那么,对于中国社会科学界而言,该如何抓住这一波新技术赋能的机遇,以推进中国社会科学发展,并在全球范围内形成学术竞争力呢?本文试图从新文科实验室建设的角度,谈谈这一问题。
笔者认为,计算社会科学研究的发展离不开计算社会科学实验室的支持,相应地,计算社会科学实验室也应该成为新文科实验室建设的重要领域,或者说,新文科实验室应该主要以计算社会科学实验室的形式来建设。通过建设大量的计算社会科学实验室,将中国社会科学研究推进到平台时代。那么,为什么说计算社会科学的进步,要以计算社会科学实验室的形式推进呢?
我们从计算社会科学实验室的内容和形式谈起。计算社会科学实验室,是以集成大数据+云计算和算法为一体的大数据分析实验室,实验室部署在云平台上(公有云和私有云),大数据存储在云计算平台,以大语言模型为代表的算法部署在云端,云计算平台为大数据提供存储空间,同时为大数据的分析提供算力,而部署在云计算平台的大模型则为大数据分析提供算法。
通过上面对计算社会科学实验室概念的归纳,相信读者已经大体明白,为何计算社会科学一定要通过建基于云计算平台的实验室来推进了。这主要与大数据的特点有关,大数据的突出特征就是体量巨大、类型多样,而且数据高速增长。要实现对大数据的开发,只能借助于云计算平台所提供的算力和算法。以计算社会科学领域早期常用的全球事件数据库(GDELT)为例,其体量高达15TB,而且实时采集全球新闻数据,同时借助多种算法对这些非结构化的新闻文本内容进行提取和转换。很显然,我们自己的电脑已经不可能存储和分析这些数据,传统的社会科学研究方法也无法实现对这些数据进行开发,数据存储和分析必须要借助于云计算平台,云平台让大数据分析变得简单易行,并让学术研究搭上产业界技术变革的列车。在这点上,公有云比研究者自己集成的服务器要强太多。
当然,从国家战略的角度来看,有些重要数据并不适合纳入产业界的公有云平台,因此建立自主可控、数据安全的社会科学公有云平台,并保证云平台上的算法能够与时俱进,应该成为未来数字中国建设的重要组成部分。
总而言之,计算社会科学实验室通过整合数据要素、算力要素和算法要素,把大数据透视社会复杂系统和人类行为规律的效力发挥到最大化,进而推动社会科学研究范式的转型,并迎来社会科学研究的新时代。推进计算社会科学的发展,仰仗于计算社会科学实验室的建设,计算社会科学实验室是集成大数据、云计算和以大语言模型为代表的各种算法的“航空母舰”。
(作者系武汉大学社会学院副教授、武汉大学大数据研究院研究员)
友情链接: 中国社会科学院官方网站 | 中国社会科学网
网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号
中国社会科学杂志社版权所有 未经允许不得转载使用
总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026
>