推动大数据时代的语言资源建设
2019年11月12日 09:27 来源:《中国社会科学报》2019年11月12日第1813期 作者:龙国贻

  党的十八大以来,习近平总书记高度重视语言文字工作,对推广普及国家通用语言文字、传承弘扬中华优秀语言文化等作出一系列重要指示,为我国语言资源建设进一步指明了方向,确立了根本遵循。近年来,学术界、社会上对于语言资源建设的重要意义正在形成越来越广泛的共识,认为语言和基因一样,是附着于人类自身的物质存在,不仅承载着人类思维和经验,还承载着族群的历史和文化,亟待调查、整理、保护、传承。随着这一认识理念的深化和传播,尤其是借助大数据时代提供的各种便利条件,语言资源建设在全国范围如火如荼开展起来,各个语言资源建设中心如雨后春笋,纷纷破土而出、茁壮成长,呈现出生机勃勃的景象。

  新中国的语言资源建设成就前所未有

  我国历来重视语言资源,在语言资源的建设方面取得了许多成就,如石文碑刻、韵书字典等,但也有缺憾和不足,如偏重书面语、对口语较为忽视等。新中国成立以来,党和政府在继承基础上大胆创新,语言资源建设取得了前所未有的成就。

  新中国成立之初,我国语言资源建设处于草创期,主要工作在于语言普查和文字创制。1956年,全国汉语方言普查和民族语普查几乎同步开展。草创期语言资源建设的主要方式是使用卡片展开记录。20世纪八九十年代,我国语言资源建设进入发展期,语言资源建设手段更加多元、工作更为深入,集中表现为:一是绘制《中国语言地图集》,全面反映了我国汉语方言和少数民族语言分布的复杂面貌。二是出版语言志书、语言研究丛书和系列词典等。各地不仅新修方志都增加了方言志,而且专门的方言志、民族语言志也大量出现,如“山西省方言志丛书”等。语言研究丛书中较有代表性的是贺巍、张振兴主持的“汉语方言重点调查”的成果,以及中国社会科学院民族学与人类学研究所组织编写的《中国新发现语言研究丛书》和《中国少数民族语言方言研究丛书》。影响较大的词典是中国社会科学院语言研究所组织编纂的《现代汉语方言大词典》41种分卷本和中国社会科学院民族学与人类学研究所主编的“中国少数民族语言系列词典丛书”。三是建立了一批方言音档,其中较有代表性的是侯精一组织建设的“现代汉语方言音库”,内含汉语方言40种代表点的语音系统、字音、词汇、语法例句和长篇语料。四是组织了数次语言使用情况调查,如中国社会科学院民族学与人类学研究所和加拿大拉瓦尔大学合作,按照语言活力参项框架展开的少数民族语言文字使用情况调查。发展期的语言资源建设仍以纸笔调查为主,已经涉及现代化录音技术,实现了自然语音采录。21世纪以来,我国语言资源建设迎来了繁荣期,其特点在于实验语音等现代手段和多媒体技术的普遍应用,集中表现为出了若干有分量、有代表性的重大学术成果,如《中国的语言》《汉语方言地图集》和“新时期中国少数民族语言使用情况研究丛书”等。这一时期,国家层面组织了几次较大的语言保护工作。如2015年,教育部、国家语委启动“中国语言资源保护工程”,利用现代化技术记录汉语方言、民族语言和口头语言文化的动态语料,成果形式为语言志、语言文化典藏、语言地图集和语言资料深度开发服务等。

  直面大数据时代语言资源建设的机遇与挑战

  近年来,随着计算机和互联网技术的发展,语言学的研究逐渐进入了大数据时代。一些庞大的语言数据库纷纷建立起来。不过,数据库材料来源良莠不齐,记音方法各不相同,给学术界使用这些资料带来困难,也影响了以此为素材进一步分析得出结论的可信性和科学性。对语言资源建设而言,大数据既是机遇,又有挑战。

  一是对语言资源建设的规模提出了更高的要求。以语言地图的绘制为例,《汉语方言地图集》中以各地数百个方言中“家”字的读音,反映见母开口二等字在现代汉语方言的语音面貌。大数据时代的语言资源建设,要求我们必须获取海量数据,既不能仅限于几百个方言点的材料,更不只是以“家”这一个字的读音来代替见母开口二等这一批字。我们可以通过全国方言材料来获取一大批见母开口二等字在一两千个现代汉语方言土语中的语音形式,用大数据的方法规避个别数据错误所带来的影响,使研究的结论更为科学。

  二是对语言资源建设的人才和技术提出了更高的要求。比如,如何调试信噪比、如何避免扑麦和削波等现象,从而获取高质量、高保真的录音材料,建设有声语言数据库;如何开发设计同音校验软件,组织专业人士对调查材料进行反复校验,从而确保材料准确可靠;如何进一步建设声学参数数据库,如何深入挖掘数据、利用语言数据展开深入的专业研究。这不仅需要对调查人员和研究人员进行相应的技能培训,而且大数据时代所带来的研究范式的改变,迫使研究人员不断提高专业素养和研究能力。

  三是对语言资源建设的标准化和规范化提出了新的要求。除了需要建立行业统一的记音规范和录音规范,使不同人员和不同团队的调查数据可以统一开发利用,我们还需对以往的调查数据进行检验整理和二次规范,从而建设更为庞大的语言资源数据库。统一规范的制定,需要业内专家们共同拟定并达成学界共识;如何对已有数据库迅速实现机助校验和二次规范,更是需要深入探讨的问题。

  把握大数据时代语言资源建设新特点

  当前,借助于飞速发展的现代信息技术,语言资源建设驶上快车道,呈现出若干新趋势、新特点。一是高度集聚、整体推进。党和国家的高度重视、政府和相关单位的大规模投入以及广大优秀人才的积极参与,都将使我国语言资源建设取得丰硕成果。随着相关项目组织越来越有效、调查越来越集中、研究越来越规范,语言资源建设会出现相对集聚、高度融合的态势,并形成一定程度的规模效应,进而促进整体发展。我国语言资源建设将呈现更集聚、更综合、更系统的势头,推动语言资源得到统一规划、综合开发,从而实现整体发展,形成规模效应,以更好地为国家语言战略、社会语言生活和语言学术研究服务。

  二是共建共享、团结合作。纵观全国语言资源建设的发展脉络和运行轨迹,可以发现其发展和运行的每个步骤、每一环节都离不开共建共享、团结合作。新时代的语言资源建设对此提出了新的更高要求,这不是某个单位、某个团队就能做好的,而是需要多个领域、多个单位、多个地域的专家学者和科研人员共同参与、群策群力,发挥出集团作战优势。如国家语委和教育部的语言资源建设都是举全国之力,各大科研院所和高校几乎全部投入,无一置身事外。通过合作共建,加大了人类语言音变通则提取的可能性,促进了演化语言学的长足发展,既能八仙过海、各显神通,又能群英荟萃、百舸争流。一方面,田野调查的录音设备和技术可以共享,以提升整体的摄录质量;由各人调查记录自己所擅长和熟悉的语言或方言,能够提升整体的专业质量。另一方面,调查成果也可以共享,研究成果可以互促。一旦有了语言数据库的有力支撑,有时候表面看起来杂乱无章的现象,也能够通过计算、处理和分析,挖掘出潜藏的重要信息。

  三是形式多样、内容丰富。以前的语言资源建设和保护工作,形式较为简单,内容也十分有限,最终形成只有专业人士才能看懂的语言或方言调查报告。相比之下,现在的语言资源建设和保护工作发生了历史性变化。形式上,不再限于书面的纸笔记录,已经扩大到高质量、高保真的声音和图像摄录。内容上,不仅限于方言字表、词表或民族语义项表的调查记录,还涵盖丰富的民歌、故事、曲艺、说唱、成语、歇后语、口传文化、非物质文化遗产等内容。成果上,不仅包括语言调查报告及其有声资料,还有方言和民族语电影、小品、相声等。队伍上,与过去只有学者和学生参与语言资源建设工作不同,如今的语言资源建设队伍更加壮大,除了语言学专业人士,还会邀请媒体加盟,举办一系列宣传活动,受到普遍欢迎。效果上,过去的语言资源建设成果,主要用于小众的语言研究,现在的语言资源建设成果,不仅促进了语言学大发展大繁荣,更为国家语言战略、规划和政策的制定实施提供了可靠依据,为各民族之间交往交流提供了平台和服务,大大丰富了社会公众的语言文化生活。

  放眼未来,语言资源建设充满希望,是一项需要共同奋斗、长期坚持的任务。只要解放思想、与时俱进,将语言资源建设置于社会进步和文化繁荣的大背景之下,充分调动各方面资源,广泛汇聚各方面力量,就能够更好地开发、保护和利用中国的语言资源,使语言资源建设始终能够与国家齐发展、同时代共进步。

  (作者单位:中国社会科学院民族学与人类学研究所)

责任编辑:张晶
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026