用数字技术探秘中华文化的宝藏
2022年06月24日 06:53 来源:《中国社会科学报》2022年6月24日第2434期 作者:王果

  文以载道,用文字传承文明,是中国文化的一大特点。卷帙浩繁的古籍是典册的海洋,也是承载着中华民族生生不息文化基因的宝库。从典籍中汲取营养,应对现实挑战,更是中华民族自强不息、历久弥坚的不竭动力。党的十八大以来,我国高度重视古籍工作,将“加强文物古籍保护利用”写入政府工作报告,出台《关于推进新时代古籍工作的意见》。近日,习近平总书记专门强调,“要运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,推动中华优秀传统文化创造性转化、创新性发展”,为我们用数字技术传承光大古籍文明指明了方向。

  突破古籍文字识别难题

  数字人文是将计算机科学技术应用于人文领域的一种新研究范式。所谓数字化,实际上有两个步骤。首先是产生数据,将人文学科中复杂多样的“材料”,经过计算机的标准化处理和模型筛选,生成机器可以识别的“数据”。其次是对生成的海量数据进行计算机建模、归类、聚集、运算,揭示其中的规律。其中以第一步为基础,是开展大数据研究的前提,第二步是实质,通过长时段、大范围海量数据的文本挖掘、分析统计、机器人工智能、可视化等技术,使碎片化的知识系统化,隐性化的知识显性化,产生出以往“小数据”研究难以察觉的知识和联系。

  从“小数据”到“大数据”,“数据”生成是前提,也是长期困扰中国古籍数字化进程的难题。中国古籍数字化始于20世纪80年代,近二十年发展加速,如今已成绩斐然,但问题也日益明显。已扫描的古籍是传世古籍的一小部分,文本化的古籍又是更小的一部分。这一小部分文本化古籍基本由人工“对录”产生,高度依赖大量的人工标注,这种基于监督学习的方法,费时费力,远远达不到大规模应用的效果,需要新的算法加以改进。

  古籍OCR(光学字符识别)的困境,与数字人文的发展史相关,它是全球信息科技“拼音文字霸权”的一部分。数字人文基于第二次工业革命以来信息技术的发展,兴起于20世纪四五十年代,这一数字知识生成过程从一开始就基于拼音文字,由西方的近代认知论、方法论、技术语言和社会文化所主导,与中国的文字、价值观格格不入。一种长期流行的看法认为,形声字不可能实现现代信息革命。在“五四”反传统的思潮中,汉字就被认为是文化落后的表现,而欲废止,代之以“文字的拼音化”,这一争论直到1976年才告止息。

  中文特别是古汉语的数字化代表着一种文本数字化、组织化和意义挖掘的独特技术路线。中文完全没有字母,如何把中国字分解成字符,曾让国人大伤脑筋。为打开中国通向现代信息王国的大门,中国知识分子付出了百年努力。现代汉语的问题基本得到解决,但古籍方面的问题仍继续存在。在书体上,有隶、篆、行、草、楷之变化,也有手书、印刷之区分;在排版上,右起竖排,字间无距,页内分版;在刊刻、印刷、保存环节,又有雕版、活字之区别,雕版材质之别、新旧之别,气候干湿之别,纸张油墨品质高下,刻工技法熟练生疏,保存条件之优劣,以及为尊者讳、避文字狱等文化因素,都会影响到文字的形态和计算机识别,让TEI编码倡议事实上很难展开。

  “读书必先识字”,构建中文古籍OCR标准,是解决古籍数字化数据源问题的治本之法。受古籍种种复杂多变的因素制约,目前针对比较简单、规范、整齐的古籍,四川大学联合阿里巴巴达摩院共同研发的“汉典重光”OCR平台,用人工智能方法识别准确率已达97.5%,尽管已经达到业内较高水平,但与国家出版文字差错率万分之二的标准还相距甚远。考虑到古籍的复杂性,要进一步提高古籍OCR准确率,还需要进行相关异形字、异体字字典及人名、地名、书名、职官、名物等基本语料库建设,将古籍汉字的多样性和异质性纳入标准体系。

  从人物与时空之维编织古代意义之网

  历史是人在时空中的活动,人是悬挂在自己编织的意义之网上的动物,将时间、空间和人物这些人类历史演进的基本维度编织在一起,大致可以构建古代意义世界的基本框架。问题是,古籍文献中的时间、空间、人物信息十分分散,维度复杂,并不会自然而然地显现出来,很多时候还互不同步、相互矛盾。随着各种古籍全文检索库、专题数据库的建成,获取分散于古籍中的时间、空间、人物信息的技术日渐成熟,链接各个不同资源,构建“网络基础设施”已成为推进古籍数字化的共识。

  时间之维,是传统史学研究的根本,在数字人文研究中尚未成为研究重点。从技术的逻辑看,统一到现代标准时间的年月日单元,就能轻松地解决这个问题。其实这具有很大的欺骗性,线性的、进步的时间是现代性的产物,历史中时间往往是相对的,主要表现在几个方面。第一,与近代线性的时间性不同,古代的时间往往具有循环的、不连续性的特点。第二,时间的文化建构不容忽视。中国历史上有关正统论、历史分期的争论比比皆是。第三,历史文献中还充斥着很多不确定的时间,比如家谱中常见的祖先传说。第四,时间的框架是多层次的,年鉴学派将之分为长时段、中时段、短时段,分别对应着地理的时间、社会的时间和事件的时间。各层次之间的关系错综复杂,并不像“俄罗斯套娃”一样环环相扣,让人一望便知。如何选择适当的时间维度,承载时空中的历史经验,架构古代的意义世界,是一个有待深入研究的问题。

  空间之维,由于历史地理信息技术(HGIS)的引入取得很大进步,初步提供了可以整合其他维度的多层次框架。以谭其骧先生的《中国历史地图集》为基础,先后衍生出台湾“中研院”的“中华文明时空基础架构平台”(CCTS),和复旦大学与哈佛大学共同开发的中国历史地理信息系统(CHGIS)。后者已经发布到第6版,提供从秦始皇到辛亥革命的行政区划数据,为历史空间提供了一个基本参照。经过十余年的发展,GIS辅助的历史地理研究,已经从静态、平面、塔式的历史地理信息化定量分析,发展到从多源数据资料中提取数据、为这些提取出来的信息建档、与他人共享,并作特定历史时空中的定性分析。

  地方也是一个空间维度,天然地融合了此空间范畴内的历史信息。地方志是古籍的一大门类,目前已知的存世方志多达万种。这些地方志自12世纪以来不断更新,覆盖内陆,也涵盖边疆,信息量巨大,结构大同小异,是数字人文的最佳材料。爱如生、雕龙、EASTView等数据平台目前收录方志约7000种,但基本都没有嵌入文本分析工具,很难加以高效利用。2014年德国的薛凤(Dagmar Schfer)教授开始开发地方志研究工具LoGarRT,主要用于灾害史研究,发现很多有价值的新问题。

  以人为中心,是中国纪传体史学的传统。一直以来,人类试图从各个角度了解自己的过去,而中国很早就选择了以人为中心。在正史、方志、家谱等中国古代文献中,保存着大量的历史信息,为从人的角度整合其他历史维度提供了方便。2005年由哈佛大学、台湾“中研院”、北京大学联合发起的中国历代人物传记项目(CBDB),截至2020年,已涵盖从6世纪到20世纪早期的47万人的个人数据。该数据库基于人物关系建立,以单一人物的生平记录为核心,并通过字号、亲属关系、生卒年份等项目,展开个人与其他人物的关系网络,形成所谓的“关系型”资料库,呈现出群体之中的个体、群体网络的形态与节点,为学者进行统计分析、群体传记学分析、社会网络分析和空间分析提供了基础。目前, CBDB和GIS等平台实现了数据对接,对于CBDB得出的数据,可以借助地理信息系统实现古籍数据的可视化,配合码库思(MARKUS,古籍半自动标记平台)工具,有助于在线阅读和文本分析。

  尽管目前综合时间、空间和人物的数据平台尚未出现,但在已有的时间、空间、人物数据平台嵌入文本挖掘、机器学习的分析工具和可视化工具,已取得初步成绩,并成为将来发展的重要方向。目前,这种有限整合带来的冲击,无论是视觉还是范式上都相当可观,已为中古学术转型、城市化、人口史、灾害史等重要问题带来了新的认识。

  聚焦新的研究问题

  陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。”数字人文兴起的当代,是人类文明面临巨大挑战的时代,很多体系正在面临深刻危机,比如,环境、经济、健康、教育、科学、信息、政治,等等。这些危机出现的原因,追根溯源多少都与源自西方的现代性危机相关。借助现代技术,从古籍中汲取历史的智慧和经验,有助于我们跳出当前的困境,从更长程的时段、更广阔的空间、更多样的群体角度,思考应对当前的问题。

  大数据之所以大,不是因为其数据量之多,没有问题意识的过载数据,只会“五色令人目盲”,让人迷失方向。大数据的真正意义,在于拓展了人文研究的规模和范围,为思考覆盖时间更长、空间更广、人群更多样的大问题提供了新的研究方法。可以讨论的问题很多,兹不一一,但有两个需要一提。一是文化自信的树立。“观乎人文,以化成天下”,在“化成中国”的历史进程中,中华民族缔造了人类文明史上的很多奇迹。中华先民顺应自然、改造自然,在世界最高之山和最大之洋之间的东亚大陆上,将多样地貌、多样民族、多样文化一并纳入统一多民族国家之中,令国家长治久安,人民安居乐业,文化历久弥新,缔造了光辉灿烂、彪炳史册的古代文明。这些丰富的历史经验和智慧,经历代之编撰整理,集大成于传统典籍体系之中,等待结合现代技术加以揭示。

  二是应对人类命运共同体的共同危机。过去几十年,全球历史学研究年代越做越短、题目越做越小。可是,工业革命以来,人类纪带来全球加速,一时间人口剧增、能源危机、气候变化、物种灭绝等种种问题纷至沓来,让习惯于用现代性思维思考有限时空中具体问题的人文研究者手足无措。用数字人文的研究方法,借鉴中华典籍中的智慧,进行大跨度的跨学科研究,可以为解决这些问题提供新的思路。

  这并不是说要用数字人文取代传统的治学方式。数字人文的最大意义,在于丰富了人文学科的研究方法,开辟了古籍研究的新领域。每种研究方式都有自己的优势和限制,大数据也不例外。数字之长在博,人文之长在约,方以智,圆而神,只有将数字与人文有机结合,才能有主导性的问题,才能有大规模的材料,真正让古籍宝藏里的智慧古为今用,发扬光大。

  (作者单位:四川大学历史文化学院)

责任编辑:常畅
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026