当前,大数据、人工智能、云计算、物联网等新兴技术正不断重塑着高等教育的未来,推动着新文科、新工科建设的数字化升级、智能化跃迁。随着数字化浪潮席卷全球,数字人文应运而生,其首先被应用于语言学,随后扩展到文学、历史学、艺术学等领域。作为新兴跨学科领域,数字人文将数字技术与人文学科结合,使得单一学科逐渐向多学科、交叉学科、跨学科乃至超学科发展,彰显着学科之间的交叉与融合。外语学科是我国人文学科的重要领域,基于数字人文推进外语学科研究,能够引领国内外语学科建设和发展潮流,为我国相关领域的更好发展贡献力量。
发展现状
目前,数字人文在西方已成为一个广泛传播的新兴跨学科研究领域的代名词。它将现代计算机和人工智能技术应用于传统人文研究与教学,体现了多学科相互渗透与交叉的时代特点,并从分析工具、研究方法、理论框架、资源类型等多个维度冲击着传统人文学科。随着全球数字化进程和人工智能技术的发展,西方高等教育已将数字人文设为固定专业。同时,已有多所大学设立了数字人文研究中心。根据哈佛大学的一份数字人文相关报告,以“数字人文”命名的研究中心、实验室等在全世界已成立180多个。美国的斯坦福大学、加州大学洛杉矶分校、普林斯顿大学、哥伦比亚大学、宾夕法尼亚大学、匹兹堡大学等,英国的诺丁汉大学、伦敦国王学院、伦敦城市大学等,德国的哥廷根大学,日本的立命馆大学等,都设有数字人文中心。由此可见,数字人文在国外已逐渐发展成熟。
近年来,国内学者也注意到了数字人文这一学术新浪潮。2016年,朱本军和聂华在首届北京大学“数字人文论坛”上对全球“数字人文”项目进行了梳理,总结出数字人文主要包含三个层次内容:一是人文数据库或数据集的建设;二是人文数字工具的开发使用;三是创新人文研究方法和研究范式。2018年,王晓光在“全球视野下的数字人文:研究与实践”的讲座中,强调了数字人文研究中需要思考的三个层次问题:一是方法层,即如何利用新型数字化技术创新人文学科的研究方法与研究路径;二是工具层,即如何深入应用新型软件工具与网络平台实现人文知识的生产、传播与教学;三是问题层,即如何发现并研究由新型数字技术带来的新人文问题。2021年6月,上海外国语大学和中国国际舆情研究中心联合举办“数字人文与跨学科研究”学术研讨会,围绕图书馆如何助力新文科建设开展数字人文与跨学科支撑展开研讨。2021年10月,中国新闻史学会举办“数字人文视野下的史志传播与传统文化复兴”学术研讨会,国内外新闻学与传播学领域的许多专家学者参加了会议,共同探讨新时代背景下以新文科为框架的新闻传播学发展面临的挑战与机遇。2022年7月,“数字人文视野下的历史档案整理与研究”学术沙龙探讨了如何将现代数字技术与传统人文研究相融合,从而为历史档案的研究提供新思路的问题。此外,国内一些高校,如北京大学、中国人民大学、武汉大学、南京大学等,也陆续设立了数字人文中心。不过,目前国内尚未形成具有影响力的数字人文研究共同体。
研究基础
一是数据库建设。在数字人文研究中,数据是基础。随着数字技术的发展,数据资源的获取、标注、翻译、比较、分析、可视化等方式发生了巨大改变。但俗话说,“巧妇难为无米之炊”。再好的分析工具、建模算法,没有数据也是没用的。没有数据库、语料库,数字人文很难实现。同时,构建海量的数据库、语料库、词典或数字化学术资源,可便于人文学者的研究。因此,基于语料库或数据库的研究不再是计算机领域的特权,它正在对外语学科研究产生愈来愈大的影响。目前,世界上现存的语料库、数据库、数据集、词典较多。比如,美国普林斯顿大学WordNet词典,美国加州大学伯克利分校的英语词汇语料库FrameNet词典,美国宾夕法尼亚大学的VerbNet词典和PropBank语料库,美国当代英语语料库(COCA),美国卡内基梅隆大学的TalkBank口语语料库,英国国家语料库(BNC),联合国文件数据库,北京语言大学BCC汉语语料库,北京大学CCL语料库,语料库在线,澜科语言科技语料库,杨百翰大学语料库以及中文开放知识图谱平台上国内高校和研究机构共享的多个学科的200多个数据集、知识图谱等。以上这些资源都可以供人文研究学者使用。但由于这些资源分布较散,单个资源的受众较少,影响范围较小,因此,建设一个能够为国内各大高校的人文研究学者提供相关领域的语言资源、数据的服务平台是当务之急。
二是工具开发使用。为实现数字人文知识的生产与研究,研究者开发的用于外语学科的数字人文工具较多。比如,处理纸质材料或其他不可编辑材料的ABBYY FineReader、天若OCR文字识别等OCR识别工具,能够实现文件识别、自动保留排版格式、后台批处理识别等功能。处理网页材料的Teleport Ultra、TextForever等软件,能够搜集网站中的语料资源,批量获取网页数据信息,对所获取的语料进行格式处理等。分析和处理自然语言的工具较多,如哈尔滨工业大学语言技术平台(LTP)能够提供中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术。FudanNLP能够提供中文分词、词性标注、实体名识别、句法分析、时间表达式识别、信息检索、文本分类、新闻聚类等。HanLP可以对多语种进行处理,包括分词、词性标注、关键词提取、自动摘要、依存句法分析、语义解析、命名实体识别、短语提取、拼音转换、简繁转换等。Stanford Parser能够对英语、汉语等多个语种进行语法、语义解析等。总之,这些工具在外语学科教学与研究中的使用,推动着数字人文研究“工具共同体”的初步形成。
三是研究方法。数字人文将人文学者采用较多的定性研究,转变为定性研究与定量研究相结合的方法。定性研究可以为定量研究提供理论依据。在定性研究中,穿插定量研究有利于揭露更多隐匿的内容。比如,利用数字技术对外语学科研究的主流趋势进行可视化统计分析,研究语言学中的特定词汇特点、句法孤岛现象等。目前,自然语言处理技术和高级编程语言如Python、R等,逐渐成为外语学科研究中的常用工具。作为人工智能皇冠上的明珠,自然语言处理是机器和人类之间沟通的桥梁。自然语言处理库Stanford CoreNLP、NLTK、spaCy、scikit-learn、gensim、Pattern、polyglot等的使用,使得挖掘和分析海量语言资源成为可能,并可对外语学科进行量化研究。总之,利用人工智能方法对外语学科进行研究,为语言研究提出问题、界定问题和解决问题拓展出新的思路。
学科建设
立足新文科建设,将数字人文理念与路径应用于外语学科建设,强化外语学科建设的数智化特色,主要体现在以下三个方面。
一是课程体系构建。国务院学位办关于外语学科的主干学科共有5个,即外国语言学及应用语言学、外国文学、翻译学、比较文学与跨文化、国别与区域研究。要夯实人工智能学科专业基础,以数智化建设理念与路径统领外语学科建设,打造数字人文的建设方向,从交叉学科层面打破学科专业壁垒,整合计算机科学与技术、人工智能、大数据、自然语言处理等主要课程,组建数字人文方向。
二是人才培养。培养跨学科复合型外语人才,可以采用交叉学科发展的新理念、新成果和新方法,并运用到教学当中去。培养既熟练掌握一门外语的专业知识和各种技能,也具有其他多门学科的基本知识和技能的一专多能的交叉学科人才,使其能够在科技尤其是通信产业及互联网、经贸、文化等领域从事语言服务及相关工作,适应社会对交叉学科人才的需求。
三是科学研究与社会服务。可以开发使用数字媒介的工具和平台,重新考察传统外语学科的既有课题,拓展外语学科与跨学科研究的可行性研究方法与研究领域。同时,可以为科研人员进行基于语料库的相关研究提供服务,践行新文科建设理念,为相关领域建设提供启示与借鉴。
(作者单位:南京邮电大学外国语学院)
友情链接: 中国社会科学院官方网站 | 中国社会科学网
网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号
中国社会科学杂志社版权所有 未经允许不得转载使用
总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026
>