中国社会科学杂志社

首页>中国社会科学报>语言学

“大数据”推动“小学”研究

——以汉文佛经音义类著作研究为例

2019年09月03日 08:49 来源：《中国社会科学报》2019年9月3日总第1770期作者：孙建伟

　　在以“大数据”“云计算”为时代特色的今天，古籍的整理、汉字的研究能够而且非常有必要以这种新理念为指导，在思路方法、材料处理、结果展示等方面作出创新，以进一步提升研究的信度和效度。就汉字的整理而言，李国英从存在方式入手，将整理对象分为“使用状态的汉字”和“储存状态的汉字”两类。具体到古籍中的汉字，我们认为，前一种指类似于诸子百家、诗词歌赋、小说话本及“二十四史”等真实文本中上下文所使用的汉字，后一种主要指以《说文解字》《尔雅》《方言》《释名》为代表的“小学”类专书中收释的汉字。“小学”类专书事实上已经对其时可见的真实文本中的用字进行过整理，故而对该类专书中收录的汉字再行整理，便成为整理“使用状态的汉字”的前提和基础。自汉至清，“小学”类专书不断涌现。此类专书有的偏重分析被释字的形体，有的偏重归纳被释字所记录的词义，有的偏重厘定被释字的音读。但也有一类“小学”专书，它们兼备文字、声韵、训诂特色，这便是专门训释汉文佛经文献中疑难字词的著作。基于这一事实，以汉文佛经音义类著作为例，从“大数据”“人工智能”等时代背景出发，探究“小学”类专书文字整理与研究的变革及创新问题。

　　现存汉文佛经音义类著作，一方面在解释佛经中的疑难字词时，间接保存了不少其他字书、韵书、训诂书中的训释材料；另一方面，尽管该类著作主要成书于唐五代，但其中收录的文字现象多是历时的，同时也是多元的。此外，汉文佛经音义中也收集了佛经翻译时新造的一些切身字、两声字、咒语字、真言字等，还有不少因上下文字的影响而产生的“同化字”和因词义或构件的聚合性而生成的“类化字”。因此，系统整理其中的文字资料，厘清所涉及的相关字词的关系，既能促进对佛经用字的整理，也可为“小学”类专书乃至全汉字整理工作积累资料、经验和方法。

　　尽管上述几种汉文佛经音义成书后曾广泛流传，然而对它们真正意义上的研究则始自清末。综合来看，目前对汉文佛经音义进行专书文字整理与研究的成果并不多，有些这类著作尚未得到充分关注。基于此，我们拟将汉文佛经音义的刻本和写本材料放置在统一的研究平台上，用历史考证法和综合分析法，从汉文佛经音义内部及与之相关的佛经文献外部，做定量和定性研究，以为全汉文佛经的整理与校勘、汉字整理的立体化、古籍校勘的自动化、汉字国际编码的科学化等提供可参用的材料及可借鉴的经验。具体来看，汉文佛经音义文字整理与研究的变革及创新包括如下几个关键点。

　　第一，普查并搜集汉文佛经音义现存的主要版本，对搜集到的版本进行源流探察、基础信息标注、数字化处理等，构建汉文佛经音义的“版本资源库”。提取出不同版本中的异文现象，考探每组异文的关系属性，比如字际关系、词际关系等；考证异文中的相关讹字、俗字，考求异文展现出的一些方言俗语的结构与意义；考察异文折射出的刻写者、刻写时代的用字特征，辨析由异文造成的经义的某些差别。在此基础上，进一步总结汉文佛经音义版本间异文出现的规律，揭示异文中错讹现象发生的动因，辨别版本的异同及优劣。

　　第二，更加深入地校勘汉文佛经音义的文本，进一步推进“计算机辅助古籍版本校勘”的理论与实践研究。从传统来看，校勘工作中的“对教”“本校”“他校”“理校”等都是由人工完成的，然而古籍校勘是一项“劳动密集型”的工作。为了更高效地完成校勘工作，北京师范大学的周晓文在《计算机辅助古籍版本校勘资源库建设浅议》等论著中，提出了“计算机辅助古籍版本校勘”的理念。该方法对传统做出了改变，它能提高校勘速度和校勘效度，能使校勘成果实现“累积—利用—再累积”的良性循环，能发现人工校勘不容易发现的新问题，能实现计算机辅助“校勘记”的自动生成。不过，该理论方法目前并不成熟，我们需要利用汉文佛经音义这批材料，进一步推进“计算机辅助古籍版本校勘”的理论与实践研究。

　　第三，辑录并考辨汉文佛经音义所释的文字，完善汉字字际关系的理论体系。前者重点包括厘析所系联的每组文字的字际关系，考证部分疑难未识字，考察所沟通的部分文字在其他辞书中的收录情况及在真实文本中的使用情况，梳理部分形体或构件的历史演变轨迹，辨正《汉语大字典》《中华字海》等字书中的某些疏误。在系统考辨的基础上，进一步考察汉文佛经音义中涉及的词汇兴替、俗语变迁的机制与动因等。不过，在判定所释文字的具体字际关系之前，我们需要进一步明确汉字字际关系的理论体系及其构成要素。佛经音义释文中常出现“古字”“非体”“近字”“本字”“俗字”“假借用”等表达字词关系的用语，当今学界常用“异体字”“正俗字”“通假字”“古今字”“假借字”“同形字”“同源字”等术语来表达文字关系。然而从其所指来看，这些用语或术语有的彼此间有交叉，有的则分属于不同的范畴。再比如，由同一结构演变而来的一组形体，哪些为书写讹误，哪些为一字异体，也需要有较为明确的判定标准。

　　第四，构建汉文佛经音义“字料库”，将所释的文字予以立体展示。目前已有的《可洪音义》文字整理表的特征是原始聚集、平面展示，而实际上其内部往往存在层级和序列。就汉文佛经音义所释文字的整理而言，借助李国英、周晓文二先生在《字料库建设的必要性与可行性》等论著中提出的“字料库”理论和方法，则是一种较为新颖的做法。它在数据的提取与加工方面，表现为自动切图、自动识别、自动标注；在材料的校勘方面，表现为计算机自动比对与人工校理相结合；在疑难字考释方面，表现为相关文字形、音、义、用信息的同平台展示；在整理结果的呈现方面，表现为立体化、全视角、综合性的布列。

　　第五，利用汉文佛经音义探究异体字整理的新模式。异体字整理是汉字整理的重点内容之一，目前常见的做法是对单组文字进行认同或别异，再据此整理出平面的字表。事实上，异体字内部常存在层级，这些不同的层级多构成异体字“树模”，每个“树模”可选定一个代表字，代表字下常有不同的异构字，其下多会有不同的异写字；同时，异构字和异写字也常有不同的层级。由此来看，运用立体分级的方法研究异体字，可以更好地展现其发展规律，也更利于对异体字的形成过程进行描写和分析。汉文佛经音义中收录的文字大多都是异体字，在考察这些异体字的字组关系、衍生关系、层级关系等基础上，可进一步创新“树模”结构的异体字整理模式。

　　第六，细化汉字国际编码的字形认同与别异规则，提取出汉文佛经音义中的未编码字。就汉字国际编码的发展现状而言，目前我们一方面需要进一步提取尚未编码的汉字，另一方面需要优化汉字国际编码的认同规则。事实上，要想实现汉译佛经文献的全数字化，首先需要将汉文佛经音义中的未编码字全部提取出来，整理之后提交国际编码组织。不过，在提取佛经音义中的未编码字时，常会碰到一种现象，即某些字图与已编码的汉字不完全一致，究竟哪些可以用已经编码的字去替代，哪些需要标为未编码？有时字图中的形体尚未编码，哪些有差异的字图本质上属于同一个字，哪些需要视作不同的字？对于这些问题，我们均需要从影响汉字形体变异的地域、时代、书写等因素出发，以《CJK汉字的认同程序和排序》为基础，结合汉文佛经音义中的相关字形，制定出更加完善的认同细则。

　　总之，在人工智能等新时代理念的指引下，借助“计算机辅助古籍版本校勘”“字料库”等具体理论方法，对汉文佛经音义等“小学”类专书中的文字进行辑录整理与多维研究，可使得整理理念更加先进、整理模式更加立体、整理过程更加可控、整理结果更加科学。

　　（本文系教育部人文社科研究基金项目“基于字料库的《慧琳音义》文字整理与研究”（15XJC740004）、中央高校基本科研业务费专项资金项目“基于佛经音义的‘字料库’理论构建与应用研究”（16SZYB09）阶段性成果）

　　（作者单位：陕西师范大学汉学院）

责任编辑：张晶

重点推荐