中国社会科学杂志社

首页>中国社会科学报>语言学

语言数据科学助力区域国别研究纵深发展

2022年11月08日 09:40 来源：《中国社会科学报》2022年11月8日第2525期作者：王宇康

　　作为一门天然的交叉学科，多学科、跨学科是区域国别研究的核心属性。语言学被视为区域国别研究的重要理论基石之一，该学科在区域国别研究中的应用重点并不是对语言本体的研究，而是侧重于语言的社会性现象研究，即语言背后的社会文化研究。德国语言学家洪堡（Wilhelm von Humboldt）指出，语言是一种社会文化活动，每一种语言都蕴含着一种世界观。语言不仅是交流的工具，其背后的选择方式和使用态势，都与意识形态和政治权力息息相关。国家叙事、国家形象研究，是区域国别研究的重要议题。大数据等数字技术的快速发展和广泛应用，为区域国别研究带来了新的机遇与挑战。将语言数据科学应用于区域国别研究中，适应当今社会科学发展的潮流，能够提升区域国别研究的严谨性和有效性。

　　多模态话语视角下的国家叙事研究

　　在国际政治中，叙事是国家之间战略合作、唤醒情感联系与友谊纽带的重要基石，讲故事是国家构建自我身份认同与价值观的重要方式。国家叙事的本质，就是通过主导型叙事唤醒其他国家从特定角度理解其行为，从而在国家行为或国家既定战略研究过程中有效达成目的。随着中国积极参与全球治理，融入全球化体系的国家叙事成为构建国际公共话语的重要内容。当今世界大国对话语权的争夺，本质上也是国家叙事之争。而国家叙事的有效构建，离不开对多模态叙事的理解。

　　通过对文字、图片和表情等多模态资源及其互动方式进行分解，能够发现不同表征模式在不同模态中的典型表现，从而高效运用好语言、文字、动画、声音和图片等符号资源来构建高质量国家叙事框架。多模态话语分析是建立在Halliday语言符号理论基础上的话语分析方式，系统功能语法是其主要理论基础。多模态话语在索绪尔“语言即系统符号”论断上加以拓宽，认为“语言以外的其他符号系统也是社会交际活动的源泉”，再加上现代媒体的广泛运用，使得多模态的国家叙事更具传播力和影响力。我们可以将计算机技术运用于多模态话语研究，使计算机拥有处理文字、语音、图像、音频和视频等不同模态信息的能力，从而能够快速对模态信息进行实证研究，展现不同模态的协同分工，彰显动态话语之间的合作意义，进而服务于国家话语建设。

　　以荷兰马普心理语言学研究所开发的ELAN（EUDICO Linguistic Annotator）软件为例，该软件实用性较强，可以将视频播放精确至0.001秒，允许研究者对视频中的语音语调、面部表情和手势动作等进行同步标注，近年来受到多模态话语研究者的欢迎与关注。在对国家形象宣传片进行多模态话语分析时，可以通过ELAN软件和音视频流切分技术，以话语模态为切分单位，对视频进行多层次切分、语音标注和赋码编写。绝大部分国家形象宣传片都是由文本、图像和声音三种模态组成。因此，对宣传片的编码一般是从表达方式（Expression）、图像（Image）、语速（Tempo）、停顿（Pause）、语调（Intonation）、话语转写（Transcription）、重音（Stress）和影像（Animation）八个层级对宣传片进行赋码。研究者可以在对宣传片赋码后进行分层标注和统计，并从语境层面分析该宣传片的文化语境和情感语境，最后探索该宣传片文本模态、图像模态和声音模态的相关关联和意义建构。

　　语料库驱动视角下的国家形象研究

　　外媒报道中的中国国家形象研究是区域国别研究的重要领域之一。对外媒涉华报道进行系统的定量研究显得尤为迫切。语料库驱动技术拥有自己独到的理论体系和方法，这种理论体系和方法基于大量的语言文本真实数据，有助于解释语言背后的社会属性和社会现象规律。语料库驱动通过概率统计和数据分析的方法得出语料库的词汇及语法特征，揭示话语结构及其表达含义。可以说，语料库驱动技术是实证性的，是量化研究的重要载体。以外媒涉华报道为文本，运用语料库驱动和计算机技术，充分发挥语料库在文本分析方面的技术优势，能够准确挖掘外媒涉华报道中中国作为“他者”的形象。基于语料库的国家形象研究主要分为三个部分，即语料库设计与建设、文本语言特征提取与分析、中国形象和成因分析。

　　第一，在建库阶段必须找到合适的语料库，即要重点考虑语料库的代表性和权威性，考虑所选定的语料、所建的语料库是否具有较好的代表性。比如，选取《泰晤士报》中某一特定时间段内（如2022年北京冬奥会期间）的涉华报道，可以代表《泰晤士报》在冬奥会期间构建的中国形象，但并不能代表整个英媒在冬奥会期间涉华报道的议程设置和言语特征，更不能探索出英媒在冬奥会期间涉华报道的报道风格和潜在立场。因此，准确分析语料库的代表性，对于研究结果的信度和研究的可复制性至关重要。

　　第二，在文本语言特征提取与分析阶段，必须找到合适的语料库分析工具来进行语料库量化研究。常用的语料库量化手段是运用AntConc和WordSimth Tools等量化软件来进行词频统计、索引行分析和搭配词分析，这三种量化手段可以为加强或修正样本定性分析或通过内省得出的结论提供证据。高频词的复现有助于受众更加客观地看待和理解问题，有利于研究者更好地探究话语背后的意识形态和政治倾向。索引行的提取是为了找出“语境中的关键词”，即新闻话语文本中的关键词，以便于研究文本中的语言规律。搭配词关注的是文本中词语之间的“结伴关系”，对搭配词进行宏观语义特征分析可以探究出文本中的情感取向和语义趋向。三者互相补充，共同解构出外媒对华形象建构的多维描写。此外，在该阶段中也常常用到SPSS分析和卡方检验（Chi-square Test），一般做法是将提取的数据按照两组或多组分类进行差异检验（如按照积极话语和消极话语的分类进行差异检验等）。

　　第三，在中国形象和成因分析阶段，通常是在一、二两个阶段得出的文本语言特征和规律基础之上，依据批评话语分析、传播学和新闻学等理论基础，从不同角度揭示中国形象在“他者”接受影响下的海外传播与接受过程，并探讨如何在国家形象构建中自塑中国形象。

　　随着大数据等技术的发展与应用，区域国别研究越来越呈现“重数据”的转向趋势。2022年9月，国务院学位委员会正式将区域国别学纳入“交叉学科”门类下的一级学科，大大提升了区域国别研究的学科地位，学界备感振奋。构建区域国别学，语言数据科学大有可为。关注交叉学科和前沿领域，合理运用语言数据科学技术手段，将极大提高区域国别研究的解释和预测能力。我国高校、智库学者要突破学科发展藩篱，有意识地在区域国别研究中运用语言数据科学方法，形成具有针对性和说服力的分区域、分国家的中国国际叙事话语，推动中国形象更好地“走出去”，讲好“和平、发展、公平、正义、民主、自由”的全人类共同价值。

　　（作者单位：上海外国语大学上海全球治理与区域国别研究院、区域国别数据科学实验室）

责任编辑：张晶

重点推荐