中国社会科学杂志社

首页>中国社会科学报>语言学

推动语言形式化分析促进人工智能发展

2021年03月23日 09:20 来源：《中国社会科学报》2021年3月23日第2131期作者：毛眺源

　　随着麻省理工学院施瓦茨曼计算研究院（Schwarzman College of Computing）于2018年成立，人工智能凸显的类脑智能化信息处理再度成为自然科学与人文社会科学深化应用类脑计算技术解决科学问题的积极推手。语言作为展现人脑心智运行的特有禀赋，与仿真人类心智能力的智能化计算技术具有天然的联系。当前，国家提出“科技创新2030”的宏大计划，将脑科学和类脑研究确定为重大科技创新项目之一。这无疑为语言、大脑与人工智能研究提供了新的互鉴契机。在此全域皆“计算”的新时期，如何借助人工智能研究的东风，剖析展示人脑心智能力的语言研究与人工智能的关系就成为非常重要的议题。

　　语言形式化研究助力提升人工智能算法

　　人工智能的核心要义即为使用计算机等机器设备，模拟在学习、问题求解等过程中人脑的认知功能。这一技术在视觉感知、语音识别此类低阶认知操作中表现良好，但在高阶自然语言理解分析中的表现却不尽如人意。这就表明，在自然语言处理中，人工智能仍需继续进化，从心智语言计算分析中借鉴相关操作，完善算法。

　　在此意义上，语言的形式化分析是推动人工智能进化的重要依据之一，并非人工智能算法终结语言研究的进程。这是因为人类是最为复杂精准的语言机器，圈定了评估与考察类脑人工智能系统水准的最高界限。在形式语言学（现称生物语言学）研究范式下，人类语言作为最复杂的符号系统之一，具备独特、复杂的计算属性。为探索此类计算属性，乔姆斯基规划了数个研究问题：人类独有心智语言系统依托什么规则进行计算？儿童（或成人）怎样获得心智语言系统？该系统怎样在大脑与心智中体现？怎样演化发展？怎样使用心智语言实现思维与交际？就提升语言算法化分析而言，语言形式化研究将为语言推导计算依赖的递归操作及其计算属性找寻合适的实现工具当作核心任务之一。不言而喻，真正达成这一目标不仅需要深入了解心智语言系统抽象运算背后的原理与机制，并建构各类假说进行论证，也需要以实际语言使用中的数据（如来自田野调查、实验与语料库）对各种假设进行对比验证。在此过程中，之所以将语言形式化分析在人工智能发展中提升至如此重要的地位，是因为几乎所有语言形式化转换分析工具都是形式语言学家与计算领域专家并肩合作的结果。此类计算领域专家能够自如地在语言语法与其他系统的计算属性之间进行转换翻译。因此，致力于解释人脑生成语言的形式化分析，自然对拓新人工智能算法具有积极的意义。也正是因为这一关联性，语言的形式化分析与仿真语言习得、加工和产出人类语言的计算实现具有相互印证的关系。

　　在人工智能进化史上，任何仅强调计算算法本身而忽视借鉴人类生成或理解语言的理念，使得人工智能在自然语言处理尤其是语义分析上始终不尽如人意。可见，割裂人脑语言运算过程与机器算法之间的内在联系，无益于提升机器学习或深度学习此类人工智能技术在自然语言理解中的表现，导致机器很难突破正确理解自然语言的瓶颈。当前，使用机器分析人类语言语音取得了一定的成绩（如手机智能语音助手展现的人机互动），说明语言形式化分析技术与经验，结合日益精进的人工智能建模技术，能够推进自然语言理解算法化分析逐渐走向成熟。换言之，鉴于目前人工智能在句法结构、语义以及语用意义分析中并非尽善尽美，若要全面提升自然语言理解的准确度，就必须参考人类怎样实现同类心智运算，这似乎才是建立理解性人工智能模型的正确路向。

　　从融合心智语言系统运算与人工智能算法的理论分析与实践操作来看，体现人类心智语言基本属性的计算—表征理论，仍应是这一互参过程中的主要理论支点之一。在此意义上，以拒绝（新）笛卡尔主义和反对计算主义为主旨的所谓“广义涉身认知科学”推进人工智能的进化，是一种矫枉过正的做法。这是因为，抛弃基于语言表征符号的心智运算，彻底转向语言本体表征之外的心理学、人类学等语言本体之外的因素，推进自然语言理解的算法化分析就缺少了实现计算分析的基本材料。这种舍本逐末的做法，必定将自然语言理解算法分析逼进无望的绝境。因此，优化人工智能算法的理想做法应该积极超越这一认识，既整合基于心智语言表征的形式化推导技术，也综合外部心理、社会与物理因素，如此才能真正优化自然语言理解的机器算法，使自然语言理解的算法化分析有所突破。从这个角度来说，以形式化方法解析语言本质及其使用的生物语言学为互鉴对象，完善自然语言理解中的人工智能算法在理论与实践上似乎更加可行。

　　人工智能算法反哺语言形式化理论的演进

　　事物之间关系的双向性，迫使我们思考人工智能算法的鲁棒性在多大程度上影响语言的形式化分析及其理论建构。在语言形式化理论与经验分析中，某些计算上显著但又悬而未决的复杂问题一直困扰着语言学家。例如，分别对句法学家、语义学家以及形式语用学家而言，语言的基本计算单位到底是什么，句法结构怎样产生意义，以及句子意义通过怎样的运算用于思维与交际。此外，对关注声音输出与感知的语音以及音系研究者来说（手语研究亦然），参与计算的基本单位和组合规则也一直是语言学家期待彻底厘清的问题。

　　毫无疑问，任何人工智能算法上的进展，必定有助于语言学家更加深刻了解人类语言的具体特性以及计算属性的起源，从而构建更加可靠、统一的有关语言知识与计算推导的理论。例如，助推计算实现的算法手段，使语言结构与意义的自动化分析与基于数据/语料库的归纳学习，在验证语言形式化分析理论假说时显现它们的价值；亦能够在统计上协助对比语言计算理论与实际语言的匹配程度，助力修正语言形式化分析理论，使之更加合理。此外，通过计算模型仿真句法、语义系统与心智中其他系统（如社会认知）的互动，能够准确预测语言知识的发展，或者说，推测语言经验与社会认知等怎样协助语言生长发育。

　　因此，就语言形式化分析对探索中的人工智能算法的期待而言，理解性人工智能算法模型更受青睐。这种“透明的”计算模型对实施任务过程中的知识以易于理解的分步方式进行表征，与人类语言形式化分析中的知识表征形式可以进行比较与互参。从这个角度来说，机器算法的知识表征方式可为语言学家完善刻画人脑加工心智语言表征的方式提供有效反馈，用以肯定合理的理论，发现与修正不合理的理论建构。尤其是当算法模型发现描写语言的独特方式，或发现语言学家没有注意到的语言事实之时，语言学研究更是受益匪浅。

　　总之，为反哺语言形式化分析或推进自然语言理解，人工智能研究者需要认真了解人类怎样计算推导、学习与使用语言的方法与过程，亦即相关形式语言学理论。反之，从事语言形式化分析以及自然语言理解的研究者，也需要跳出自我圈定的范围，吸收计算算法的简洁性与准确性，走跨学科的发展之路，如此才能百举百全。

　　（作者单位：苏州大学外国语学院）

责任编辑：张晶

重点推荐