学前儿童语料库建设的全球发展态势
2022年05月27日 07:10 来源:《中国社会科学报》2022年5月27日第2415期 作者:张洁 饶高琦

  儿童语料是研究儿童行为、探索语言获得机制的重要基础。1787年,德国心理学家、哲学家迪特里希·蒂德曼出版的《婴儿行为日记》是最早记录儿童语言的著作。20世纪60年代,伴随着语料库语言学和计算机技术的发展,儿童语料库建设兴起。1969年建设的Okayama语料库等是世界首批建设的学前儿童语料库。据不完全统计,世界学前儿童语料库已达350余个。世界学前儿童语料库的建设历史和发展态势,可以从语料库技术和语料库内容两个层面来把握。

  学前儿童语料库建设技术:“三化”

  纵观世界学前儿童语料库建设技术的发展历程,尤其是近四十年来的发展变化,其特点可概括为“三化”。

  第一,语料采集技术数字化。儿童语料采集技术经历文字记录、录音、录像三个技术阶段。早期主要采用笔录、日记的方法采集儿童语料;随后开始使用录音技术,第一个使用录音技术采集儿童语料的是日本的Okayama儿童语料库;20世纪70年代,美国的Menn儿童语料库首次使用录像技术采集儿童语料。80年代至90年代,文字、录音、录像技术均得到采用。进入21世纪,传统的文字记录和磁带录音、录像方式逐渐式微,数字化音像摄录技术兴起并得到广泛应用。便携式采录设备的普及使得人们可以随时随地采集儿童语料。经统计,除未知建设年份的儿童语料库外,20世纪到21世纪,采用文字记录的儿童语料库建设比例约由10%下降为1%,采用录音的约由42%下降至30%,采用录像的由约28%上升为32%。总体而言,儿童语料采集技术逐渐形成数字化和泛在化的特点,并体现出从平面媒体、有声媒体向多媒体发展的趋势。然而相较于其他较成熟的语言资源建设,儿童语料库建设对人工智能、云计算等先进技术的应用还有差距。

  第二,语料采集方法多样化。儿童语料采集方法包括自然观察法、访谈法、实验法、网络采集法等。20世纪70年代之前,自然观察法是语料采集主要的甚至唯一的方法。此后,除自然观察法外,开始利用访谈法、实验法等采集儿童语料。21世纪,随着互联网技术的发展,CHCC儿童语料库等开始汇聚网络中的儿童语料。20世纪到21世纪,自然观察法的应用约从81%下降至68%,实验法约由16%上升为37%,访谈法的应用率也出现明显下降。采集方法直接影响调查对象语言产出的自然程度和主动程度,当代儿童语料库应当兼用多种采集方法并顺应数字时代的发展。

  第三,语料标注逐渐共识化。当前儿童语料库标注呈现三个发展特点。其一,从人工标注发展到计算机自动标注。例如,2013年,临沂大学建设的儿童多模态口语语料库使用多模态标注软件ELAN进行文本转录。其二,从单纯语言标注到兼顾话语标注。会话行为、言语行为、副语言、语用、语言事件、情绪情感等编码出现在语料标注规范中,这是语料库建设开始重视儿童话语的表现。其三,标注规则逐渐形成共识。目前,采用的最为广泛的儿童语料规范和采录工具,是美国卡内基梅隆大学国际儿童语言中心于1984年建设的CHILDES儿童语言数据交流系统。该系统同时发挥语料库汇聚的功能,世界学前儿童语料库中,约89%为CHILDES系统采录;大部分学前儿童语料库也都借鉴了CHILDES提供的语料标注规则。有些儿童语料库,如新加坡的五至六岁学前儿童华语口语语料库,采用“973当代汉语文本语料库分词、词性标注加工规范”,并将其用于新加坡华族儿童华语的语料标注。

  学前儿童语料库建设内容:“三意识”

  语料库技术是儿童语料库建设的实现途径,语料库内容则体现了建设的思路理念。考察CHILDES平台提供的300余篇官方文档,参考近千篇研究儿童语料库的文献,可以将近几十年来学前儿童语料库内容的发展总结为“三个意识”。

  融合意识。世界学前儿童语料库建设的融合意识主要体现在两方面:一是“语言结构”和“语言功能”两大范畴渐趋融合。目前,世界学前儿童语料库中,关注语言结构的有230余个,约占66%,这些语料库主要围绕儿童的语音、词汇、语法、副语言(符号)及识字能力等五个方面来建设;关注语言功能的有250余个,约占总数的72%,建设内容侧重于交际意图、语言社会化、话语、副语言(交际)、交际策略、言语行为等;既关注语言结构又关注语言功能的有近150个,代表着语言结构与语言功能两大范畴融合关注的建设方向。

  二是学术研究和社会应用逐渐融合。学前儿童语料库建设主要关注的两大社会领域,是儿童语言智能技术研发和儿童语言干预治疗。儿童语言智能技术的研发,体现在语言文字的单向识别和“人—机”双向交际互动建设,体现在将儿童语言智能技术用于儿童语言产品研发,这也是儿童语料库实现语言产业化转型的关键。儿童语言障碍研究与儿童语言干预治疗相结合,体现了语料库建设为特殊儿童提供语言服务的向善意识,这也是儿童语料库建设能够解决社会语言问题、为社会谋福利的重要领域。

  语言多元意识。据不完全统计,约近50种语言(包括其地域变体和社会变体)纳入学前儿童语料库建设,排名前10的依次为英语、西班牙语、汉语、法语、荷兰语、德语、日语、意大利语、葡萄牙语、俄语。其中,汉语儿童语料库数量约占世界建设总数的9%。近年来,呈现出以英语、西班牙语、汉语、法语为主,其他语言快速入库的语言多元格局。

  双语或多语学前儿童语料库也在不断发展。目前有双语或多语学前儿童语料库40余个,涵盖语言约30种(包括其地域变体和社会变体),其中建设数量位列前五的语言依次是英语、西班牙语、法语、汉语、荷兰语。也应看到,低龄儿童、其他语言儿童、双语手语儿童的多语发展问题成为21世纪的热点话题,但目前语料库建设对此类问题的关注还有待提升。跻身世界学前儿童语料库的语言数量约为人类语言的0.7%,参与世界双语或多语学前儿童语料库建设的语言数量约为0.4%,未来尚有很大发展空间。

  共享意识。目前有160余个儿童语料库提供共享服务,约占总数的46%。现有最大的儿童语料共享平台是CHILDES系统,在可共享的儿童语料库中,有150余个来自CHILDES平台。从历时发展看,儿童语料共享率呈上升趋势。20世纪建设的学前儿童语料库,提供共享服务的约占该时期建设总数的45%;21世纪,提供共享服务的比例上升至54%。例如,Miyata语料库等在提供语料共享服务的同时,明确表示会“保护调查对象隐私”。在遵守基本伦理规范的基础上,实现语料库共享顺应了资源共建共享时代的发展要求。

  总体而言,20世纪末以来,学前儿童语料库建设呈现繁荣景象。然而在先进技术应用、学术自觉、开放程度、使用效益等方面还亟待提高。学前儿童语料库建设不仅涉及语料库语言学、儿童语言学、儿童学、计算机科学等学科的发展,还是一项关乎语言教育、文化基因传承和全球信息平等等长远事业,仅从技术和内容两个层面去了解儿童语料库建设是不够的。结合当今数字化生存、智能化转型的时代背景,需要探讨儿童语料库在更大的学科体系和国家战略中的地位,深入研究提升中国儿童语料库建设水平和声望的路径,并考虑未来为儿童配备“智能玩伴”“智能教师”等问题。

  (本文系国家社科基金重点项目“中国学前儿童语料库建设及运作研究”(19AYY010)阶段性成果)

  (作者单位:北京语言大学语言科学院;北京语言大学汉语国际教育研究院)

责任编辑:常畅
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026