积极推动多文种民族古籍跨学科研究
2023年04月11日 09:28 来源:《中国社会科学报》2023年4月11日第2628期 作者:龙从军

  少数民族古籍是各民族文化的传承载体,是中华民族的重要文化遗产和人类文明的宝贵财富。在我国悠久的历史长河中,各族群经过“诞育、分化、交融,最终形成了今天的五十六个民族”。一些少数民族在发展过程中,创制了文字,并用文字记载传统文化、风俗习惯、政治经济、社会交往等,形成了数量巨大、形式多样的多文种民族古籍。弥足珍贵的多文种民族古籍是古人智慧的结晶,为今人了解古代社会状况提供了真实可靠的宝贵资料。2022年,中共中央办公厅、国务院办公厅印发了《关于推进新时代古籍工作的意见》,这是新时代古籍工作和古籍研究的行动指南。《意见》强调既要重视汉文古籍又要大力推进多文种民族古籍研究,要鼓励应用跨学科研究方法积极开展古籍“文本结构化”“知识体系化”“利用智能化”。同时,多文种民族古籍跨学科研究也是对国务院学位委员会、教育部关于设置“交叉学科”门类通知的回应,是“新文科”和文科实验室建设的重要实践形式。

  跨学科研究是做好多文种民族古籍工作的迫切要求 

  以铸牢中华民族共同体意识为旨归,有两类民族古籍尤其值得关注。一类是用民族文字记载的、反映边疆民族与历代中央政府交流往来史事的古籍。这类古籍从不同的视角记述了各民族发展交融进程中的历史要素,与汉文或其他民族文字古籍形成对照,相互印证。应用好这些材料,有助于揭示中国历史一体化发展的事实。另一类是用民族文字翻译的历代汉文典籍。在历史上,许多汉文古籍宣扬的仁、义、礼、智、信等儒学思想,成为各民族共同学习和传承的精神财富。一些少数民族建立的地方政权为了加快自身发展和与各民族之间的交流,积极学习儒学典籍,择要翻译为本民族文字,借鉴中原地区的先进文化。中原文化深刻地影响了周边少数民族,少数民族文化也不断融入中原文化,经过长期的文化交融逐渐形成了共同的中华文化基因。

  目前所见,多文种民族古籍载体多样,收藏分散,文字各异,内容庞杂,研究基础薄弱,数字化程度低,普及传播受限。在新时代,多文种民族古籍研究要“挖掘古籍时代价值”“促进古籍有效利用”;要“以铸牢中华民族共同体意识为主线……挖掘弘扬蕴含其中的民族团结进步思想”;要“加强学科交叉融合,推动古籍学科与材料技术、信息技术、人工智能等领域学科融合发展”。现实基础和时代要求需要相关部门通力合作,组织跨学科团队,开展多文种古籍内容挖掘和价值利用工作。

  跨学科研究是做好多文种民族古籍工作的重要手段 

  多文种民族古籍文献的研究利用不是单一部门和单一学科的任务。此项研究是以当代视角挖掘古籍知识,汲取古人智慧和历史经验,树立正确的中华民族历史观,服务党和国家民族工作大局。因而,各领域专家须从学术体系和学科体系角度出发,结合自己的专业,从多文种民族古籍文献中寻找相关的研究内容。

  譬如,计算语言学领域专家的工作主要在于关注多文种民族古籍信息处理,构建多文种民族古籍文献语料库,以自然语言处理方法开展对多文种民族古籍文献内容的分词、标注、实体识别、民汉对译或翻译,并对古籍知识进行分类、关联、挖掘、提取,采用机器学习技术构建跨文种古籍文献自动处理模型。图书情报领域专家可从古籍知识组织和知识管理角度探索多文种民族古籍文献的收集、整理、编目、标引,构建目录检索库、全文检索库等,更好地服务读者。出版企业可利用自己的资金和人力优势,与科研院所或图书馆合作,共同建设古籍数据库,出版古籍图书。语言学研究人员可关注多文种民族古籍中民族语言的语音、词汇、语法问题,通过汉民对音、辅助构拟古汉语语音系统、分析比较汉民语言关系等,探索语言同源分化的线索,总结归纳语音、词汇、语法的类型特征和语言的演化路径。历史学研究者可关注多文种民族古籍文本中的时间、地点、人物、事件,探索不同民族的政治制度、经济体制、社会历史、对外交流等。民族文化领域学者可探索多文种民族古籍中记载的传统文化、民风民俗、文化遗产以及传统手工艺。此外,宗教、哲学、艺术、传统医学等领域专家则都可从多文种民族古籍中获得所需要的知识。

  哲学社会科学和自然科学许多专业都以古籍文献为研究对象,多文种民族古籍是古籍文献中别具特色的一类,但与汉文古籍相比,多文种民族古籍文献研究的广度和深度还有待提升。在大力提倡中华优秀传统文化创造性转化、创新性发展以及铸牢中华民族共同体意识的背景下,多文种民族古籍知识的挖掘、传播成为不同领域专家关注的焦点和跨学科研究的试验场。

  跨学科研究有利于多文种民族古籍数字化开发利用 

  我国多文种民族古籍数字化已经取得了较好的成果,大规模多文种民族古籍目录、扫描图像数据库和全文数据库不断涌现,这些浅层数字化成果实现了多文种民族古籍保护、保存、检索、浏览等目标。但是古籍文本中的知识以自然语言的形式呈现,自然语言本身是非结构化的,难以直接被计算机“理解”。只有对多文种民族古籍文本进行断句、分词、实体标注、对译或翻译等浅层标注,才能满足二次开发和利用的要求,如提取多文种民族古籍的词表和词频、训练古籍文献词法分析模型等。然而,浅层标注数据也难以满足领域专家的需求,只有对文本进行深层标注,并利用计算机、互联网实现古籍知识的挖掘和传播,才能更好地服务领域专家开展多文种民族古籍研究,并真正实现多文种民族古籍文本语言数据的价值。

  多文种民族古籍文献的深层标注是古籍数字化研究的方向,深层标注的实现需要跨学科专业知识,如文献学、语言学、历史学、计算语言学等领域知识的会通,还需要机器学习和语言模型等技能的应用。没有领域专家参与或脱离领域专家需求的标注数据,不能尽显其数据价值。当前多文种民族古籍数字化研究、文本标注与领域专家的需求严重脱节,跨学科合作势在必行。例如,对于多文种民族古籍文献中同一个人名而言,语言文字学研究者更倾向于探索该人名在不同语言体系下的文字形式、语音形式以及语言之间的翻译规则,以便更好地探索语音和字形变化规律;历史学研究者更倾向于了解与该人名相关的历史事件在不同语言文字文献中的记载情况,通过史实互证,爬梳历史线索,寻求历史真相;计算语言学研究者则更倾向于关注人名自动识别标注和多语对齐,通过大规模的双语语料构建人名与人名、人名与史事、人名与地点等各知识单元之间的语义关联。这些具体而细致的需求是任何一个领域的研究团队都难以独自完成的多文种民族古籍数字化任务。

  跨学科研究实现多文种民族古籍知识关联 

  知识关联是在文本结构化的前提下,利用计算机、互联网技术和大数据方法从多源异构数据中发现知识单元之间的规律和关联。多文种民族古籍知识关联则是汇集多文种民族古籍结构化数据,在细粒度切分、标注的前提下,借助文字信息处理和语义网技术,构建多文种民族古籍知识单元之间的关联。以下分述几类具体的知识关联。

  第一,同文种单本古籍内部和多本民族古籍之间的知识关联。单本古籍内部特定人物、事件、处所、时间、职务、人物行动轨迹等知识单元可以通过特定的标引建立关联,并用数据图、知识图谱等形式呈现出来,辅助研究人员了解、学习和研究古籍文献。这种知识之间的关联往往存在于领域专家学者的著作和个人经验记忆中,难以直接从原始文献中获得,也不方便后学者和其他领域专家使用。在古籍深层数字化的基础上,采用计算机手段建立的知识关联则有利于数据的复用、传播和二次开发。例如,藏文古籍文献《韦协》中的人物韦·赛囊,其名字的藏文书写有多种形式,或为异体,或为全称和简称,可以分别使用“全称”“简称”和“异体”标引并关联。他的女儿名叫韦萨·坚热斯,可用“女儿”标引关联两个人物;他担任过的职务有楚本、索伦、坚旺,可用“职务”标引关联人物与任职;他的法名为益喜旺波,可用“法名”标引关联人物与法号;他朝拜过的寺庙有释利那烂陀、亨桑、桑耶、摩诃普提,可用“朝拜”关系标引人物与寺庙;他还住过桑耶寺,到过天竺、京师,在洛扎修行等,都可用相应标签标引并关联,最终可以形成韦·赛囊这个人物整全性的语义知识网。

  第二,同文种多本古籍文献的知识关联。不同古籍文献是在特定历史背景下,由不同的人或组织撰写、整理的。由于时代、社会认知的局限,以及个人的主观认识差异,不同时代的著者对同一历史人物、事件的看法存在差异。建立同文种多本古籍知识单元之间的语义关联,可以辅助历史学家系统考察历史人物的活动轨迹和思想变化状况,再现历史事件发生的过程和不同评价。例如,在《韦协》记载的历史人物中,有一位名为恩兰·达札路恭,其名字的藏文形式在不同古籍中存在差异。要全面了解和认识该人物,需要整合不同藏文古籍材料,形成该人物的知识关联。从拼写形式来看,由于人名简称方式、异体字选用、语音变化或者人为错误等,该人名有十多种书写形式,要从全文数据库中准确检索到该人物,构建该人名书写形式的知识关联就成为必要的任务。

  第三,多文种民族古籍知识关联。多文种民族古籍知识关联可以促进跨学科学者对民族古籍文献的利用。多文种民族古籍深度标注数据和多文种知识单元对齐数据是知识关联的基础,信息和网络技术为多文种民族古籍知识关联提供了技术保障。基于多文种知识关联的数据平台可以实现跨文种知识单元检索、跨语言词表获取,并利用计算机强大的存储能力、搜索能力、运算能力和推理能力,从大规模、多源异构的民族古籍中找出知识关联,并将抽象的数据空间转换为直观的视觉空间,利用视觉处理能力发现隐藏在抽象数据空间中的模式和知识,更好地辅助专家分析和推断,得出更加客观的结论。例如,《韦协》中记载了恩兰·达札路恭相关历史事件,他是苯教的代表人物之一,是反佛派大臣的代表,参加了佛苯论战,并主持修建了黑塔。而据《雪碑》中的记载,他是赤松德赞的大臣,揭发过末氏及朗氏叛逆,还在攻陷李唐京师时建立了赫赫功名。但这样地位显赫的吐蕃大臣却在汉文古籍中没有记载。通过知识关联,对相同历史事件进行分析后发现,汉文古籍文献中的人名“马重英”与恩兰·达札路恭实为同一人。考证出这一结论,耗费了专家们长时间的工作,试想如果在数字化的基础上采用跨学科技术,则能极大提高研究论证的效率。

  跨学科研究促进多文种民族古籍知识普及传播 

  在多文种民族古籍数字化的基础上,跨学科手段可推动多文种民族古籍资源共享。构建多文种民族古籍文献数据平台,充分利用互联网途径提供方便的数据入口,其意义在于,让有需求的专家学者快捷地获取多文种民族古籍文献的目录以及文本内容,为相关研究和教学提供辅助;也让更多的人关注、研究民族古籍,促进多文种民族古籍数据共建共享和古籍基础知识普及传播。此外,标准规范的共享资源数据库也能更好地对接国家文化大数据体系,进一步丰富和增强国家文化软实力。

  构建多文种民族古籍隔行深度标注和跨文种统一资源平台,对多文种民族古籍文本进行拉丁或国际音标转写、隔行对译和翻译,可以实现跨文种检索。近年来,多文种民族文字信息处理水平稳步提升,机器学习和语言模型逐渐用于处理多文种民族古籍文献。“四行对译”法的应用,在一定程度上破除了民族语言文字识读障碍,为不同学科的研究者使用多文种民族古籍提供了便利,有助于从多角度更好地挖掘多文种民族古籍的价值。因此,要充分利用语义技术构建跨文种民族古籍知识图谱,通过信息化、智能化和网络化手段,挖掘、提炼中华文明基因,以图文并茂的方式,把中华优秀文化知识推向普通大众,让中华文化更好地走向世界。

  党的二十大报告指出,中华优秀传统文化蕴含了中国人民的“宇宙观”“天下观”“社会观”“道德观”,要加大力度“提炼展示中华文明的精神标识和文化精髓”,“增强中华文明传播力影响力”。跨学科、多文种民族古籍数字化资源共享、深度标注、知识关联,可以打破数据隔离,促进多文种民族古籍价值挖掘和大众传播,为传承弘扬中华优秀传统文化打下坚实的基础。

  (作者单位:中国社会科学院民族学与人类学研究所) 

责任编辑:张晶
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026