李炜:推进数据档案学在社科研究中的应用
2017年12月19日 08:18 来源:《中国社会科学报》2017年12月19日第1355期 作者:李炜

  数据资料对于社会科学领域的实证研究具有决定性意义。进入21世纪以来,中国社会科学领域的一大亮点是一系列全国范围的纵贯学术调查机构,秉持数据共享的理念,相继公开原始数据库,使之成为当前社会科学研究领域中重要的学术资源。其中由中国人民大学中国调查与数据中心开展的“中国综合社会调查”(Chinese General Social Survey, 简称CGSS)、中国社会科学院社会学研究所开展的“中国社会状况综合调查” (Chinese Social Survey, 简称CSS)、北京大学中国社会科学调查中心开展的“中国家庭追踪调查”(China Family Panel Studies,简称CFPS)、北京师范大学中国收入分配研究院开展的“中国家庭收入调查项目”(Chinese Household Income Project,简称CHIP)、西南财经大学中国家庭金融调查与研究中心开展的中国家庭金融调查项目(China Household Finance Survey, 简称CHFS),被学界冠为“五朵金花”或“调查5C”,在学界拥有较高的声誉。研究数据开放的举措可以说是中国社会科学研究领域的“供给侧改革”,功不可没。

  随着研究数据共享的扩展,也产生了一个令人关注的现象,那就是数据使用无论在人数还是在成果数量上都大大超过了调查研究资料的原创者。以CGSS为例,截至2016年底,数据用户已超过4万人,采用该数据进行研究分析的文献量达2094篇(部),其中数据原创团队的学术成果不足50篇(部),约占比2.4%;以CSS为例,在目前已发表的近700篇(部)文献中,原创团队的学术成果仅有58篇(部),占比约8.3%。这意味着二手数据用户的需求重要性越加凸显,原创团队必将面临着重要的角色转换:从调查研究的设计者、数据资料采集者,转换为研究资料的提供者和服务者。

  用户需求旺盛但数据服务短缺

  研究数据开放共享成为公共资源,诱发了数据使用者的多重需求。首先,数据使用者有获取数据的强烈需要。他们无一例外地希望尽早、全面地获得最新数据。其次,数据使用者有数据指导的需求。需要数据提供者在数据的概念界定、口径、采集方式及过程、分析解读等多方面给予信息和技术支持。最后,数据使用者有整合开发数据资源的需求。他们面对多笔释出在各个机构网站上的数据,希望能够将不同项目、不同时代、不同区域、不同口径的调查数据标准化综合利用,以取得更大的价值。

  但在国内目前的学术组织框架中,满足上述需求的服务提供,却有着多重的制约。在传统的项目(课题)制架构下,数据共享只是原创团队自身研究的一项“副产品”,在数据使用的优先序上,项目(课题)组本身应该是排在首位的;各类后续的数据服务工作已超出了自身的研究者角色,没有义务提供周全的后续服务;特别是多笔数据整合的增值服务,到底由数据提供者还是由用户自身来完成,莫衷一是。数据提供者认为已经尽了最大的公益之心将数据分享学界了,由研究者来承担数据服务的职能,实在力所不及。

  科研数据共享带来的用户需求旺盛和数据服务短缺之间的张力,更深层次预示着中国社会科学界面临的一个应用拓展难题:当各类研究数据作为公共学术资源密集面世,谁来为它们的整合和增值服务买单?

  数据档案机构的发展历程

  为数量众多、来源庞杂的研究数据提供管理和整合的服务,在国外的学术研究领域已经相当普遍和成熟。数据档案机构的诞生与发展,便是社会科学研究数据服务领域的一大创新。在欧美国家,社会科学数据档案中心(Social Sciences Data Archives, SSDA)已有70年的发展历史。

  世界上最早的SSDA可以追溯到1947年美国创立的第一个数据档案管理机构——罗普中心(Roper Center)。调查研究创始人之一的Elmo Roper,将他从20世纪30年代中期开始积累起来的民意调查数据捐赠给美国的威廉姆斯学院图书馆,而该图书馆于1957年将罗普调查的数据档案独立出来,成立了“罗普舆论研究中心”,2015年又归属于康奈尔大学。目前,该中心已经收集22000多个来自美国和其他100多个国家的民意调查数据集,建立了专注于公众舆论调查和分析、世界领先的社会科学数据档案库,并以每年数百笔数据资料纳入的速度增长。另一所闻名于世的SSDA是成立于1962年的美国密歇根大学的校际政治和社会研究联合会(The Inter-University Consortium for Political and Social Research,ICPSR)。该组织是会员制组织,在世界各地约有760所会员大学和研究机构加入。ICPSR维护并提供了大量的社会科学研究数据档案用于研究和教学,目前拥有超过8000个单独研究/调查项目数据和25万笔数据集。

  在欧洲,1960年德国科隆大学建立的社会研究中央档案馆(ZA)以汇集社科数据档案闻名;1964年荷兰阿姆斯特丹大学建立的斯坦因麦茨档案馆,专门收藏民意调查数据档案;1965年成立的英国数据档案馆(UK Data Archives)被英国国家档案馆指定为数据托管和存储处,主要收藏人文社科领域的数据,成为英国研究和教育领域中的基础性材料。

  1977年在比利时的新卢万成立的国际社会科学数据组织联合会(International Federation of Data Organizations for the Social Science, IFDO),标志着社会科学数据档案机构走向国际化和规范化。

  数据档案学:一门新的学科

  在以纸张为主要信息载体的时代,图书馆、档案馆成为人类资讯的汇集地,由此产生了图书馆学和档案学。同样,在电子化时代,社会科学数据档案中心的普及,也促使了数据档案学的出现。数据档案学作为社会科学研究价值链上的一个新节点和新型服务供给类型,包含了诸如数据采集、数据修复、数据标引、数据集成、数据存储、数据释出等围绕数据生命周期展开的数据管理流程的知识体系。

  数据档案建立中的数据采集,主要指既有数据的收集引进,相当于传统图书馆业务中的“采访”环节。数据资料的采集,主要考量数据的研究利用价值与规范性。一般而言,长期纵贯调查的数据、稀有数据(如对艾滋病患者的调查数据)会更有引进价值;具有规范性的数据说明文件的数据资料应是重点引进的来源;和纸版图书单本采购引进方式不同,研究数据多采用会员制的方式分享。

  数据修复则包含了数据清理、数据考据等步骤,通过去除奇异值(Outlier Data)、校验数据逻辑、插补缺失值等方式,提升数据质量,保障数据集的完整性。数据标引是数据档案标准化的关键,相当于传统图书馆业务中的“编目”环节。为便于对数据文档和变量信息的检索,国际社会科学领域通常采用DDI(Data Documentation Initiative)元数据标准,用于对文档、研究项目、数据文件和变量进行关键词的标准化描述。

  数据集成指对各类数据集的跨库、跨时空的整合,如将同一时期不同国家的贫困人口从各自的原始数据库中整合为一体,进行比较研究;又如将同一地区的同类历史数据汇集,形成纵向动态数据库。数据集成得以把跨时间、跨主题、跨学科、跨模态的多重数据综合起来,极大地丰富研究视野,也非常有实战价值。美国密歇根大学的中国信息研究中心(China Data Center)利用我国各类开放数据集成的China Data Online和China Map Online,便是成功的应用案例。数据存储主要包括数据的永久备份、定期备份、物理隔绝等保护与安全性事项。数据释出主要涉及数据保密、私密处理、伦理审查、定期更新、用户维护等内容。

  社会科学数据档案中心将是新时代的科学研究资讯汇聚平台和基站,亦将是新一轮学术建设的焦点。目前数据共享带来的数据服务供给不足的难题,也同样提供了一个新的发展机遇。中国科研机构应该具有前瞻意识,尽早地投入数据档案中心建设,提升数据档案学的学科发展空间,以一种新的激励机制和制度安排,打破传统的项目制下研究者作坊式的自给自足生产和运用学术资源的格局,促进我国社会科学研究的数据综合开发和增值应用,更好地为我国学术研究的现代化,为发挥智库功能,提供新的有力支撑。

  (作者单位:中国社会科学院社会学研究所)

责任编辑:张月英
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026