燕海雄:加强语法标注资源建设 推进中国民族语言研究
2018年07月03日 08:31 来源:《中国社会科学报》2018年7月3日第1484期 作者:燕海雄

  中国语言多样,类型复杂,资源丰富,是语言研究的宝藏。这块宝藏尚未充分开发利用,相关研究还有很大的发展空间。改革开放40年来,中国民族语言研究发展迅速,取得了巨大成就,出版了大量的描写专著和词典,例如国家民族事务委员会主编的《中国少数民族语言简志丛书》,中国社会科学院民族学与人类学研究所主编和开发的《中国的语言》《中国新发现语言研究丛书》《中国少数民族语言方言研究丛书》《中国少数民族语言系列词典丛书》《藏缅语语音和词汇》以及“汉藏语同源词数据检索系统”“东亚语言词汇语音数据检索系统”等,汇集了巨量的语音和词汇数据资源,为民族语言的深入研究奠定了基础。随着语言研究的不断深入,语言知识的不断积累,语言视野的不断扩大,新世纪的中国民族语言研究呼唤新的转向。我们应该把握时机,全面开展中国民族语言语法标注资源建设,抢救和保护这些珍贵的民族非物质文化遗产,深入发掘这些重要的语言资源。

  充实文本语料

  以前的资源建设主要集中在语音和词汇方面,缺乏文本性质的资源,很少有长篇语料型的资源问世,特别是缺乏语法标注文本的熟语料资源。这是目前语言资源研究的重大空白点,阻碍了语言研究的深化,也阻碍了语言类型学、历史语言学、区域语言学、接触语言学等资源依赖型学科的发展。在这样的情况下,中国民族语言研究呼唤一种跨语言、跨方言的开放性语法标注文本研究,这不仅能解决真实文本语料匮乏的现状,而且能推进中国语言学在深度上的发展,在学术研究、教学应用以及保护非物质文化遗产等层面都具有重大的理论意义和现实意义。

  中国民族语言语法标注资源建设不仅仅是一种量的积累,更是一种质的变化,具有重要的学术价值。第一,建设语法标注资源必将引起一次中国描写语言研究的范式变革。随着中国民族语言语法研究逐渐走向深入,传统的例句调查方法已经不能满足语法研究的现实需求,越来越多的语言学家开始呼吁建立大数据的语法标注数据库并付诸实践,取得了令人振奋的成果。这种建立在大数据基础上的语法研究是一种方法上的改进,更是语法研究理论上的革命。第二,建设语法标注资源推动语言资源依赖型学科的发展。长期以来,由于缺乏大规模真实熟语料文本资源,语言学界一直期望开展语言类型、语言比较以及语言应用等深层次的跨语言(方言)研究,但收集资源困难。语法标注资源建设必将逐步改善这种状况,这是一种学科深化发展和进步的表现,也是基础学科的学术突破。

  避免记录失真

  语言研究需要新的发展,新的发展需要新的范式。典型的传统描写语言学著作中的语法知识,大多是通过例句调查的方式获取的,这种获取知识的方式往往带有浓厚的翻译式色彩和诱导式谬误。长篇语料在研究成果中所占的比例不仅数量少,而且地位低,处于附属地位。新的语法标注文本恰恰以长篇语料为主,语言概况或语法导论为辅。语言知识来源于长篇语料,而不是例句抽查。这样的研制思路不仅弥补了大量的文本语料,而且开拓了语言研究的新方向。这与目前学界倡导的记录语言学不谋而合。这样的语料从本源上避免了主观性,甚至杜绝了母语人自身的内省式语法案例。从方法论上看,以真实文本为语料的研究很可能引起中国描写语言研究范式的变革,这主要体现在:

  第一,采用隔行对照化的标注方法。这种方法是目前世界各国学者研究少数民族语言的主流方法,通过隔行对照化形成一种所有语言学家或语言学专业研究生都能读得懂的文本。

  第二,文本选材要符合语言学资源的基本规范,例如记述性、口传性、原生性、连续性等。文本来源用多方式取得,包括田野调查语料、口语性书面语料(民间故事、剧本、相声、小品、纪实等)。文本语料的类型是传统口传故事记录、民间文学作品,也可以有少量报刊语体文本和其他作品等,但是一般不包括韵文类的诗歌、民歌、唱本之类。

  第三,语法标注资源建设需要建立一套适合中国民族语言的涵盖整个语法系统的语法标注集。语法标注集按照国际规范用英语命名和缩略语注解,另外添加中文术语翻译,主要包括词类、否定词、语气词、人称代词、结构助词、并列连词、性别和类别、数、格、时、体貌、语态、式、示证、趋向、名词化、级、关系化、语篇等标记的标注符号。

  优化研究方法

  从2010年开始,中国社会科学院民族学与人类学研究所整合院内外资源,组成“中国民族语言语法标注文本”课题组,多次召开中国民族语言语法标注培训会议,先后得到中国社会科学院语音学与计算语言学重点实验室计算语言学科课题(2010年立项)、中国社会科学院重大课题(2011年立项)、国家社科基金重大招标课题(2012年立项)以及中国社会科学院创新工程课题(2013年立项)的资助。

  《中国民族语言语法标注文本丛书》于2016年10月由社会科学文献出版社正式出版发行,并获得国家出版基金资助。丛书主编为中国社会科学院民族学与人类学研究所江荻研究员。第一期共出版了10本专著,包括《藏语拉萨话语法标注文本》(江荻)、《土家语语法标注文本》(徐世璇、周纯禄、鲁美艳)、《哈尼语语法标注文本》(白碧波、许鲜明、邵丹)、《白语语法标注文本》(王锋)、《藏语甘孜话语法标注文本》(燕海雄、江荻)、《嘉戎语卓克基话语法标注文本》(林幼菁)、《壮语语法标注文本》(蓝利国)、《纳木兹语语法标注文本》(尹蔚彬)、《水语语法标注文本》(韦学纯)以及《维吾尔语语法标注文本》(王海波、阿力木江·托乎提)等。这套丛书是从事语言学、民族学、人类学、历史学和自然语言处理的学者必备的资源和工具,是一种全新的语法研究方式和出版形式,是一次学术深化研究和拓展学术研究方法的创新,是决定未来语言学研究方向的基础工程,代表了一种新型的研究范式。

  本项研究的成果除了中国民族语言语法标注文本外,还包括中国民族语言语法信息电子词典和中国民族语言语法标注集。中国民族语言语法信息电子词典是语法标注研究的“副产品”,同时又是重要的语言财富。该电子词典一般采用双语对照或多语对照(部分语言可以添加传统文字),要求词典中包含民族语词条,每个词条用汉语(和/或英语)注释,注释词条将作为文本自动标注的对照词条。本项研究的语法标注软件平台为词典与文本互动提供了交互功能,任何时候都可以从文本修改增删词典的词条,扩大词条规模。所有语言词典都要添加语法标记,语法标记需要事先植入词典,其中语法属性包括每个词的词类、所有可能的语法词(虚词)的语法标记、人称代词等封闭词类的标记等。中国民族语言语法标注集建立了三套完整地涵盖整个语法系统(词法或形态、句法)的语法标注集。实际上,由于各语言语法类型差异较大,按照语法差异类别可以分为苗瑶侗台语、藏缅语以及阿尔泰语三种类型,分别建立适合各类语言的标注集。

  (作者单位:中国人民大学文学院)

责任编辑:张月英
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026