中国社会科学杂志社

首页>中国社会科学报>语言学

积极促进民族古籍数字化发展

2022年08月02日 08:28 来源：《中国社会科学报》2022年8月2日第2461期作者：龙从军

　　1981年印发的《中共中央关于整理我国古籍的指示》，从古籍整理的意义、工作要求、工作保障三个方面对古籍整理工作作出指示，推动了我国古籍整理事业的发展，并取得了巨大成就，被学界视为古籍整理工作的第一个春天。2022年印发的《关于推进新时代古籍工作的意见》（以下简称《意见》），从总体要求、工作体系、工作质量、转化利用、工作保障五个方面进行部署，将对古籍工作的认识和要求提升到一个历史新高度，被学界视为古籍整理工作的又一个春天。《意见》对新时代古籍工作进行了全方位部署，其中涉及少数民族古籍工作的机构建设、人才培养以及古籍抢救保护、整理研究、译介出版、开发利用等方面。民族古籍是各民族文化的传承载体，也是中华民族的重要文化遗产和人类文明的宝贵财富。加快民族古籍数字化进程，既是抢救保护的手段，又为更好地开发利用和普及传播奠定了基础。

　　面临困难

　　我国民族古籍数字化情况复杂。一是民族古籍文种多。少数民族创制使用的文字有30余种，这些文字形状各异，书写、印制的典籍形制多样，内容博大精深。传统民族文字信息技术发展相对落后，字符输入、识别、显示、打印、文字处理软件以及互联网传输等都受到限制，导致民族古籍数字化进展缓慢。二是民族古籍存放分散，许多民族古籍散存于边疆民族地区的寺庙、文物宗教管理部门、地方图书馆，甚至还有散落民间者，由于保存条件差，破损严重，给古籍数字化带来极大挑战。三是参与民族古籍数字化研究的多学科综合人才奇缺，民族古籍数字化技术水平低，大部分民族古籍仍处于收集整理和图档制作阶段，制约了民族古籍资源开发利用和普及传播的速度。

　　进入新时代，数字化是古籍收集整理、开发利用和普及传播的必然要求。我们对古籍数字化概念要有清晰认识。数字化是一个动态过程，既不能把数字化理解为打字录入，也不能理解为简单的数据库。

　　表层数字化和深层数字化

　　民族古籍数字化可分为表层数字化和深层数字化。

　　表层数字化可分两步实现。一是把不同载体的民族古籍文献，利用数字照相机或扫描设备转换成图片，存储为电子文档数据。当前的民族古籍数字化大部分处于本阶段。国家图书馆、古籍出版机构、民族地区的相关部门，已经完成了大量多文种民族古籍的制图工作。二是利用手工录入或OCR识别技术把图像中的符号和文字转换成可以自由编辑的文本。现阶段，藏文、蒙古文等古籍已采用字符识别技术解决图像转文本的问题。这可以使古籍数字化快速进入全文文本化阶段，从而使建立大规模的古籍全文网络检索数据库成为可能。

　　深层数字化同样可分两步实现。一是标识和标注。标识主要用于图书检索需要而标注的古籍元数据体系，需要解决对实体古籍和数字化古籍的著录与描述问题。标注是对可以自由编辑的古籍文本内容进行的标引，包括批校、注释、分词、断句、命名实体标注、句法语义标注、对译、翻译等。通过标识和标注的文本，形成了可供计算机识别和利用的结构化古籍文本知识。二是古籍文本知识关联。这是对文本结构化的古籍知识中的单本、多本和多文种等多元化数据进行知识融合，建立起不同古籍文本知识的内部或外部关联，形成系统化的古籍知识库和知识体系。

　　新技术、新方法、新视野

　　民族古籍深层数字化是一种新视野的体现。深层数字化通过信息化、智能化手段，深度加工、挖掘、提炼、普及、传播民族古籍知识，可以使民族古籍更好地“文本结构化”“知识体系化”“利用智能化”，从而更好地对接国家文化大数据体系，增强国家文化软实力。

　　民族古籍隔行对译。《意见》指出，要加大少数民族古籍的“译介出版”。传统的“译介出版”主要以人工翻译和篇章段落对齐模式为主，由于文字识读障碍，研究和使用人群相对较小，这既会影响民族古籍工作的全面推进，又会使资源转化利用受到极大限制。对此，民族古籍翻译对齐，需要在研究手段和对齐模式上有所创新。《意见》指出，加强学科交叉融合，推动古籍学科与材料技术、信息技术、人工智能等领域学科融合发展，借助智能技术辅助翻译和深度加工、开发利用民族古籍成为可能，构建以字、词、句、段和篇章为单位的不同层级的对译对齐数据，使不同学科的研究者和有兴趣的普通大众，能跨越语言文字障碍，积极关注、利用民族古籍。国家民委在《全国少数民族古籍工作“十四五”规划》中提出的“四行对译法”，可广泛应用于民族语言文字材料的分析。四行对译材料也为多学科开发利用古籍资源奠定了基础，可用于开发古籍文献分词、标注工具、古籍文本机器翻译模型、民族古籍知识图谱等，使民族古籍资源转换利用步入“快车道”。

　　民族古籍文本结构化。古籍文本中的知识以自然语言的形式、各式各样的叙述方式呈现出来。古籍文本因时代、作者、体裁和文种不同，表现出极大差异。同时，自然语言本身是非结构化的，难以直接被计算机自动识别和处理。应充分利用语言信息处理技术，发挥计算机自动处理能力。从海量多文种古籍文本数据中挖掘出潜藏的有价值的信息，把古籍文本数据以结构化的形式表示和储存。断句、分词、特殊词汇标注（如命名实体识别）、句法结构分析等，都属于文本结构化的内容。文本结构化贯穿于民族古籍文本信息处理的全过程。断句、分词、特殊词汇标注是古籍深层数字化的基础。句子是语言运用的基本单位，计算机对古籍文本内容的挖掘往往以句为输入单位，断句是正确理解文本的前提，“词”是语义的基本单元。分词是将输入的句子从字序列转化为词序列，是计算机文本挖掘的基础。特殊词汇标注是指对人名、地名、时间名、事件名、书名、职务名以及词的变体或异体等标记类别标签的过程。标注抽取是文本结构化的重要手段。计算机可以抽取出不同文种中带有标签的历史人名、地名、时间、事件等实体词汇，建立人与人、人与地、人与事、时与地、时与事等关联关系，进行文本内容挖掘和自动推理。

　　民族古籍知识体系化。民族古籍知识体系化是指把单本、多本和多文种古籍知识融会贯通，形成全面而系统的古籍知识语义网络，为古籍知识智慧化应用提供可能。一是单本古籍文本知识体系化，即对单本古籍中的知识关联和融合。二是不同古籍知识体系化，即对多本古籍知识关联和融合。古籍具有时代性，同一时代或不同时代记载的历史人物、历史事件往往存在关联；对同一历史人物、历史事件的记载，也可能来源于不同作者、不同时代和不同古籍版本。跨古籍的知识关联，对古籍知识体系化具有重要价值。借助不同古籍知识考证历史人物、历史事件，是史学家和文献学家采用的有效方法。三是多文种古籍知识体系化，即对跨文种古籍知识关联和融合。对同一历史人物、事件的记载可能存于不同民族语言文字的古籍中，受客观条件和主观认识的限制，历史记载谬误在所难免，利用多文种古籍知识互证互鉴、去伪存真，能揭示历史的真相。此外，我们可以利用计算机强大的存储能力、搜索能力、运算能力和推理能力，从大规模、多元异构的古籍资源中寻找历史关联，借助计算机和互联网可视化工具，给历史人物、历史事件等画像，通过人物、事件、地点和时间等各要素以图文并茂的形式再现古籍内容。古籍知识体系化成果，有利于促进数据资源的复用、共享、二次开发和普及传播，可以使民族古籍研究从象牙塔走向普通大众，从“绝学”走向“显学”，让更多的人关注、研究民族古籍，使我国各民族的优秀传统文化得到传承和发扬。

　　民族古籍利用智能化。利用智能化指在文本结构化和知识体系化的基础上，利用计算技术、网络技术开发古籍知识智慧应用和共享服务平台，以人工智能手段和大数据方法辅助民族古籍知识整理、研究、挖掘和传播。以深度学习、低资源语言信息处理技术开发辅助工具，训练机器学习模型，构建专业的民族古籍知识库和数字化文化产品。古籍研究的目的是古为今用，要为“治国理政”用，为“民族团结”用，为“科技创新”用，为“人民健康福祉”用，为“乡村振兴”用。如此多的用处，必须实现古籍知识的大众化传播，让每一个人都能够了解、熟知和自觉运用古籍知识。互联网是新时代传播知识最方便、快捷的手段之一，开发适应互联网传播的民族古籍数字产品，以沉浸式阅读、机器问答、虚拟历史场景等方式，使古籍知识在数字虚拟空间重现，使人们在沉浸式的学习、体验环境中领略古籍中的智慧。数字化文化产品也可以更好地通过互联网途径，向世界传播我国各民族优秀传统文化知识，讲好中国文化故事。

　　《意见》为新时代民族古籍数字化指明了方向，也对古籍工作者提出了更高的要求。应清晰认识民族古籍数字化的现状与困难，想更多办法、用更多手段，让民族古籍中的文字“活起来”。应以铸牢中华民族共同体意识、民族团结进步思想、正确的中华民族历史观为出发点，从民族古籍中挖掘各民族交往交流交融的历史事实和中华民族大家庭形成的历史事实。

　　（本文系国家社科基金冷门绝学研究专项学者个人项目“藏文古文献《韦协》《柱间史》《底吾史记》文本标注与语法研究”（20VJXG036）阶段性成果）

　　（作者单位：中国社会科学院民族学与人类学研究所）

责任编辑：张晶

重点推荐