中国社会科学杂志社

首页>中国社会科学报>语言学

语言智能时代呼唤语言学理论创新

2023年03月21日 09:46 来源：《中国社会科学报》2023年3月21日第2614期作者：李斌张松松

　　ChatGPT等语言智能技术的出现与应用，对语言学、语言教学、写作、出版等领域带来了一定冲击，并引起了不少争议。随着技术公司的不断涌入以及全球用户的不断增加，各种支持和反对的声音也不断出现。脱胎于20世纪初结构语言学的现代语言学已发展百年。面对ChatGPT等语言智能技术的挑战，语言学能否回答机器语言智能带来的问题？如何面对支持与反对的声音？能否指导机器语言智能的发展？语言智能时代的新问题、新挑战，需要语言学通过不懈探索与理论创新进行积极回应。

　　相关讨论

　　在关于ChatGPT的有关讨论中，支持的声音至少可以归纳为两种。一是ChatGPT有效推动了大数据和机器学习模型的发展，在资金、人才、技术、应用等方面将吸引到更多资源，或能取得更大的技术进步与突破。在一定程度上可以说，ChatGPT已经在文字层面通过了图灵测试（机器可以像人一样与人对话），这将使越来越多的资源助推这种基于大数据和机器学习的技术发展。二是ChatGPT非常好用，应好好利用。ChatGPT是一个非常方便的工具，通过简单的命令便可生成符合要求的结果。虽然还不够完美，但是可以节约大量的时间与精力。

　　同时，相关批评和反对的声音大致可归纳为三种。一是ChatGPT不知道自己在做什么。它只是一个基于超大规模语言数据训练出来的模型，并没有多少学习与认知能力，更谈不上思考。有时，它所生成的内容也并不精确，经常张冠李戴，只是看上去表达非常流畅。二是ChatGPT会干扰学校的教学和论文写作等正常秩序。学生们可以使用ChatGPT生成文本来完成作业或撰写论文、读书报告、程序代码等，这可能使很多学生难以接受正常的知识技能训练，从而干扰了正常的教学秩序。三是ChatGPT挑战了传统的语言学、心理学、文艺学等人文学科，也产生了许多知识产权、网络欺诈等相关的法律问题。ChatGPT基本没有用到传统的语言学、心理学的研究成果，而主要依赖于大数据和神经网络模型。对语言学家来说，这是一个非常大的挑战。语言学有着辉煌的历史，对各种语言有着大量的现象描写与规律总结，却没能为ChatGPT这类产品提供理论基础。

　　理性看待

　　语言学家应如何理性对待ChatGPT等语言智能技术带来的冲击？想回答这个问题，还是要回到乔姆斯基20世纪50年代发表的论文《描写语言的三种模型》。在这篇论文里，乔姆斯基指出了马尔科夫模型的问题，认为马尔科夫这种数学模型不足以生成合法的自然语言句子。在将人类儿童与这种经验主义的数学模型进行对比时，乔姆斯基认为，人类儿童一般3岁左右就可以学会说话，但他们并不需要大规模语言数据作为学习基础，只需要较少的样本便可以习得语言。并且，乔姆斯基区分出人类的先天语言习得装置（大脑硬件）和后天的语言习得过程，更加推崇能够生成合法句子的句法研究。在近期的访谈中，乔姆斯基认为，ChatGPT就是基于高科技的在海量的数据上的“剽窃”，追捧ChatGPT就是浪费资源。

　　马尔科夫模型注重句子内部前后词语之间的接续概率问题。作为基于语言数据的统计学习模型的先驱，该模型早在20世纪初就被提出。但直到20世纪八九十年代，随着计算机对语言数据的大规模存储能力和计算机算力的不断发展，该模型才在语音识别、输入法、词性标注等任务上大放异彩，并在计算语言学领域占据统治地位20年左右。之后，该模型逐渐被其他更好的统计学习模型取代（如最大熵模型、支持向量机、条件随机场等）。2006年以来，基于深度学习的神经网络模型不断取得进步，在语音、图像、文本等领域都取得了非凡的成就。而神经网络模型在20世纪40年代就已被提出。经过60多年，该模型随着计算机软硬件的不断发展而不断进化，效果越来越好，不仅能够生成越来越合法的句子，还可以更好地“理解”人类语言。基于大数据和机器学习的自然语言处理技术，已成为计算语言学和工业界的主流。

　　ChatGPT也经历了这种进化，此前GPT的1—3代，性能越来越强，不断刷新着语言学家的认知。2018年，GPT-1是在约4.5GB的数据上训练而来，模型的参数约为1.2亿。2020年，GPT-3是在约570GB的语料上学习训练，模型的参数多达1750亿。ChatGPT利用深度学习技术在大规模语言数据上训练出一个大模型，根据用户的提问生成一段回答。在这个过程中，它完成了自然语言的理解和生成两大任务。计算机与人脑不同，难以像人类一样表征、感知和理解意义。所谓的理解和生成，在对话任务中就变成了大模型根据问题来生成回答。从实际效果来看，机器学习的作用类似于人类语言的习得机制，海量数据类似于人类后天的语言习得数据，而大模型则如同人类的语言能力。在可预见的未来，ChatGPT还将不断发展，或可集成语音、图像、视频甚至更多模态的机器感知数据，利用多模态逼近意义的表示与运算，形成不断更新的多模态对话系统乃至更自然、完善的人机交互系统。这种强劲的发展势头，应引起我们的足够重视，理性分析其原理、优势与不足，探讨应对之策。

　　积极应对

　　现在看来，大数据输入+神经网络模型，或可看作人脑之外的另一种语言习得与生成机制。就像人类发明的飞机，飞行不一定需要像鸟儿那样有两只会扇动的翅膀。空气动力学、材料学以及各种发动机等，开辟了航空航天的新世界。这里的主要问题在于，有些新技术并没有脱胎于传统学科。ChatGPT的这种发展路线，是独立于语言学之外的一种技术路径。它本身除了数学基础和软硬件技术之外，并没有建立针对语言的完善理论，就取得了重大进步。对此，我们需要发展出基于这些技术实践的新理论、新方法，语言学理论创新成为当务之急。具体来说，新的语言学理论需要解释三个方面的新问题。

　　首先，ChatGPT为何在不需要人脑，仅依靠大数据和大算力的条件下就可以取得较好的人机对话效果？换句话说，基于冯·诺依曼结构的计算机与基于神经网络的数学模型，究竟解决了什么样的问题，使ChatGPT能够在一定程度上模仿人类的语言能力。目前来看，这主要依靠机器学习领域的专家和工业界的计算语言学家联合攻关。但在已有的探讨中，他们也非常吃惊ChatGPT的表现，即能够在通用领域（而不只是天气预报等特定领域）取得较好的表现。目前，他们并没有非常清晰的理论体系和理论阐释。这可能需要语言学家的共同参与，厘清ChatGPT之所以比较成功的基本理路。

　　其次，能否借助ChatGPT的技术，基于大数据来探索人类语言能力的奥秘？目前，ChatGPT的英语能力好于汉语。是否单纯为数据量的问题，还是汉语比英语更难处理？同时，我们也需要进一步考虑这样一个问题：是否可以利用大数据和人工智能方法来研究语言？人类语言的数据量是巨大的，但在古代大部分都无法记录下来。而在21世纪的信息时代，人类的语言，特别是在电子设备上书写的语言文字，每天都在数以亿计地增长。过去，语言学家主要以个案调查的方法，研究语言现象、总结语言规律。今天，互联网上的海量数据，给语言学家提供了非常多的研究资料。这种原始材料规模之巨大，仅靠个人之力是难以卒读和把握的。400多年来，天文学利用望远镜等设备的不断发展观测到海量的天文数据，然后利用计算建模方法不断重构宇宙模型，获得了诸多重要突破。那么，在21世纪，能否借助人工智能和大数据分析技术，帮助语言学家分析和构建人类语言的数学模型？

　　最后，是否可以研究基于计算机的语言习得理论与方法？超级计算机在短时间内就可以基于海量语言数据进行各种参数训练。随着语言智能技术的发展，我们也许需要区分基于人和基于计算机的两种不同的语言理论。一方面，两相结合可以更好地研究语言的根本属性和规律。另一方面，探索基于机器的语言理论，可以助力人工智能技术迈向更为成熟的语言智能阶段，从而产生面向人类社会的更多更有用的语言智能产品。更重要的是，语言智能技术正在使计算机不断成为人脑之外的新试验田。在人脑上实验有着伦理、法律等诸多因素的限制；而在计算机这块新试验田上，研究人员可以把语言学、心理学、神经科学等学科的种种发现、种种规律、种种数学模型等进行运算和实验，从而使其成为验证和完善理论的重要依据，并助力这些领域的进一步发展。

　　ChatGPT等语言智能技术的方法及应用，对传统的语言学理论带来了一定挑战，同时也带来了语言学理论创新的契机。海量的真实语言数据、超大规模数据分析与机器学习技术等，都给语言学带来了新的资源与方法，为语言学理论创新提供了重要基础。

　　（本文系江苏省教育科学“十四五”规划课题“面向人工智能的教学资源新生态构建与实践”（D/2021/01/120）阶段性成果）

　　（作者单位：南京师范大学文学院；金陵科技学院外国语学院）

责任编辑：张晶

重点推荐