中国社会科学杂志社

首页>中国社会科学报>语言学

语料库文体学的功能与价值

2023年11月08日 10:53 来源：《中国社会科学报》2023年11月8日第2768期作者：诸葛晓初吴世雄

　　20世纪80年代以来，随着计算机跨学科应用和语料库语言学的发展，文体学领域出现了“语料库转向”——语料库文体学（Corpus Stylistics）应运而生。介于理论与方法论之间的语料库方法，为文体学研究提供了理论基础和技术支持，使得定量和定性相结合、历时和共时兼具的实证性文体学研究成为可能。目前，学界对这一术语的定义尚未统一。比如，麦金太尔（Dan McIntyre）和沃克（Brian Walker）认为，语料库文体学以文体学和语料库语言学的共生关系为基础，将文体学的理论、模型和框架应用于语料库分析中。国内学者的观点主要分为两类，一类视其为一门新生的学科，另一类视其为现代文体学研究的新方法。观点的分歧并不影响语料库文体学的功能与价值，不管是作为研究范式还是方法论，其学术地位和应用价值都不容小觑。

　　方法和工具

　　语料库文体学的基本研究方法包括：基于语料库的（corpus-based）、语料库驱动的（corpus-driven）、语料库指导的（corpus-informed）。第一类指根据已有的文体学研究结果或既定理论，通过语料库数据来验证这些结论或假设，并且可以修正所检验的结果或理论。第二类指运用语料库检索方法生成数据进行穷尽性分析，进而发现数据中文体特征以形成相关的研究假设乃至结论。这两类方法属于典型的语料库语言学方法。第三类方法源自麦卡锡（Miachel McCarthy）有关语言教学材料的编写原则，指基于大型参照语料库中适合检验和可能解释某些特定语言直觉的发现，间接使用语料库语言学对目标文本进行人工分析。

　　语料库文体学研究常用的语料库工具和基本技术包括：使用WordSmith、AntConc软件提取关键词表、词丛等，使用kfNgram软件提取短语型式，使用Sketch Engine软件考察关键词或高频词的搭配、类联接，以及借助一些专门开发的网站或标注系统等。常见的网站或标注系统有：雷森（Paul Rayson）开发的Wmatrix网络平台语义标注工具；麦博格（Michaela Mahlberg）和史密斯（Catherine Smith）开发的开源检索引擎网站界面CLiC；利奇（Geoffrey N. Leech）和肖特（Mick Short）设计的言语、思想表征标注模式，后经塞米诺（Elena Semino）和肖特修正并发展为言语、书写和思想表征模式（SW&TP），这两个模式都被用于文本话语表征中各类范畴的分布及其特征分析。

　　研究领域

　　广义上的文体学可分为文学文体学和普通文体学，与之相应，语料库文体学包括语料库文学文体学和语料库普通文体学。前者是指有关作家风格、人物形象、叙事特征、主题意义和文体效果等方面的文学文本特征分析；后者包括法律、科技、商务、新闻报道等所有非文学类文本研究。从研究实践来看，前者研究居主导地位，研究成果较为丰硕。

　　作家风格分析借助语料库基本技术（有时结合统计方法或机器学习算法）考察文本中的文体特征，从宏观层面区分不同文学体裁、不同类型小说的风格，以求发现某位作家风格的历时变化，以及从微观层面识别某位作家或是某部作品中独特的语言特征。莎士比亚的作品是这类研究的主要对象。

　　文学作品中的人物塑造分析借助语料库工具获取作品中人物语言型式（pattern）或与人物相关的特殊语言型式，包括引述动词或言语动词、直接引语、人物的言语和思想表征、称呼语词丛、被悬置的引语（suspended quotations）或其他典型语言型式（包括某些关键词、关键语义域、高频词丛或词组），而后考察这些语言型式的频率、分布以及搭配和类联接来分析作品中人物形象、心理状态、思维风格或思维模型。其中，比较系统的研究当属麦博格对狄更斯小说中的高频词丛和被悬置的引语的分析。

　　小说叙事特征研究通常采用基于语料库的方法，即研究者先提出主观假设，通过语料库考察某些词频特征、关键词、高频词或词组、特殊的词汇—语义型式的搭配、类联接，同时结合语用功能、叙事学理论等分析小说中的叙事视角转换、叙事进程、叙事空间等。目前，这类研究成果相对较少，图伦（Michael Toolan）的著作《短篇小说的叙事进程：语料库文体学方法》具有一定代表性。

　　作品的主题意义和修辞效果研究主要有两类。一类是基于关键词的索引行和搭配分析，从语用学、语义学角度发现作品中潜藏的主题意义。值得一提的是，麦博格和麦金太尔将关键词分为虚构世界信号类和主题信号类，对其中一些主题信号类关键词进行索引行分析，可为作品的主题意义研究提供参考。另一类以罗吾（Bill Louw）和米罗杰维奇（Marija Milojkovic）为代表，从语法层面的搭配、语义韵分析来发现文本的深层含义、修辞效果乃至作者的写作意图。罗吾提出逻辑语义韵（logic semantic prosody），又被称为潜文本（subtext）搭配，即从语料库中提取某些语法串的索引行进行搭配分析，借此推断诗歌中某些隐含意义。从这种意义上讲，逻辑语义韵发挥了诗学阐释功能。同时，罗吾和米罗杰维奇结合弗斯（John Firth）的情景语境，提出了语境韵理论（contextual prosodic theory），通过观察诗歌中某一个语法串在参考语料库中最高频率词汇搭配，结合语境解读其潜文本所揭示的内涵。目前，这类研究的对象主要是诗歌文本。

　　相对而言，语料库普通文体学研究成果较少，研究对象多涉及新闻报道、政治文献、体育评论、商务文本等非文学文本，比如，塞米诺和肖特试图将SW&TP用于真实语料分析中，对20世纪小说、新闻报道和传记三类体裁的文本语料库进行了SW&TP 标注和分析，发现新闻报道中的言语表征、间接言语、叙述者言语行为表征较多，但思想表征较少且没有自由间接思想表征。胡春雨通过基本统计特征分析、主题词、词丛、索引行分析，发现英文商务合同的文体特征，即包含大量专业性词汇、古体词、书卷词、并列词语、情态动词等词汇特征，以及句子结构较为复杂且具有更大的变异性。

　　意义和价值

　　其一，推进文体学研究方法的客观性、科学性和实证性。传统文体学以定性研究为主，研究者的主观判断或逻辑推演可能产生结果的任意性和循环论证。语料库文体学借助语料库技术和统计方法，获取文本中字词、句法等不同层级的总体或是典型的语言型式，为定性分析提供统计数据和量化依据。这种定量定性相结合的方法，在一定程度上避免了研究的主观性和局限性。此外，语料库文体学以实证形式验证文学批评，证实或完善现行的理论，或提出新观点并形成新理论。

　　其二，拓展文体学研究内容的广度和深度。语料库方法可以挖掘出一些肉眼难以观察到的文体差异，捕捉到人的直觉可能忽略的语言现象，指引研究者或读者将目光投射到“视觉盲区”。胡开宝和杨枫总结出语料库方法涉及的4个方面数据，即文本特征的基础数据、典型词汇和句式结构的使用频率、搭配和语义韵数据以及数据之间差异显著性的数据。显然，这些数据为研究者提供了更宽广的视角。研究者会视研究目标不同，选取关联数据进行客观描写和阐释，进而丰富研究内容，提升文本审美空间和研究价值。未来，随着文体数据挖掘技术的不断发展，语料库技术在句子、语篇层面的特征获取和标注的技术也将日臻成熟。并且，通过借鉴文体计量学、心理学情感分析、数据可视化等软件提取出的有价值的文体特征，语料库文体学将展现出更大的研究潜力。

　　其三，促进文体学研究的交叉和融合。语料库文体学是学科间融合发展的产物，展现出当代数字技术为传统文体学研究的赋能。基于大规模语料的观察和数据统计，建立一种描写、阐释、评价相结合的现代文体学分析框架，也能够与传统文体学互为参照、相得益彰。作为一个综合性研究范式，语料库文体学的跨领域应用和交叉研究方兴未艾，目前较为常见的有历史语料库文体学、教学语料库文体学、语料库翻译文体学等。这些研究不仅拓展了文体学的研究疆域、推动了文体学的发展，还为其他学科研究提供了新视野、新方法，甚至可以为一些专业领域人员或组织机构起草文本提供模式参考。

　　总之，语料库文体学研究具有广阔的前景和潜力。中国的文体学源远流长，堪称文学学科的“名片”。吴承学提出，建设现代意义上的中国文体学，既要继承中国传统文体学的范式和经典方法，又要充分利用大数据、人工智能等科学技术。中国文体学研究可以与语料库文体学接轨，在新时代构建定量和定性结合、阐释和实证融合、古代和现代贯通的中国文体学研究体系，增强中国文体学研究的国际影响力。

　　（作者系温州商学院国际学院副教授；福建师范大学外国语学院教授）

责任编辑：张晶

重点推荐