陈天琦:人工智能语言输出的发展困境
2018年06月05日 08:28 来源:《中国社会科学报》2018年6月5日第1465期 作者:陈天琦

  美国汉森机器人公司生产的机器人索菲亚(Sophia)在2017年10月成为历史上首个获得公民身份的机器人后迅速走红,频繁出现在各国的电视节目、社交媒体、时尚杂志、音乐视频以及线下讲座论坛等活动中,其丰富的面部表情以及对问题流畅的回答引来人们的惊叹甚至是恐慌。但近来以Facebook人工智能实验室主任、深度学习专家杨立昆(Yann LeCun)为代表,评论其为“彻头彻尾的骗局”的反对声音又将其推向社会舆论的风口浪尖。这些质疑并非空穴来风,索菲亚在语言输出上的表现很大程度上基于设计团队对问答的前期编写,而远未达到语言的自主表达和“自我意识”建立的水平。

  人工智能在语言输出方面的发展受到广泛关注,因为语言是人类重要的交际工具和思维工具,承担着重要的社会作用,甚至在某种程度上可以说是人和其他动物相区别的重要标志。换言之,如果人工智能在完成“图灵测试”的基础上能输出与人类自然语言相近的语言,说明它在一定程度上已达到“类人”或“新兴人类”的标准,此时它与人类的关系与区别也将被重新审视。就目前的科学技术水平来看,人工智能语言输出与自然语言究竟有哪些难以逾越的显著差异,人工智能语言输出在发展中遇到了怎样的困境,这是值得探讨和回答的问题。目前,人工智能语言输出同自然语言存在如下差异。

  差异一:产生。关于人类自然语言的生成和习得,语言学界目前的主流观点以乔姆斯基(Noam Chomsky)的“天赋说”为代表,他认为在人的大脑中有一个特殊的语言习得机制(LAD)且掌握了一种普遍语法(UG),这种独有的生理现象经由遗传得到。儿童在已有语言习得机制这一生理基础上接受外界给予的环境刺激和信息输入,通过“咿呀期”“独词句”“双词句”“电报体”到“接近成人”等一系列阶段,逐步实现结构表达和词汇输出上的飞跃,同时依靠语言系统运转的核心——横向上构成线性序列的语言成分之间的“组合关系”及纵向上同一个结构位置上不同结构单位间相互替换的“聚合关系”,对语言规则加以吸收和运用,从而推动语言习得由量变走向质变。

  由于这一语言习得机制尚未得到实证且无法进行实验模拟,因此从本质上看人工智能只能从建构语言系统的组合关系和聚合关系着手,存储一系列语言规则和根据结构位置分类的语言单位,所用结构单位材料极其有限。同时,语言表达的效度和可接受性离不开生理的语言习得机制和语义制约在内的人类语言感受,而人工智能仍处于“无心的机器”阶段,对语言的感受甚至是最基本的生理与心理感受都难以获取,只能通过程式和算法进行简单的、规则明确的、具广泛适用性的有限表达。

  此外,人工智能向更高级别的推进离不开机器的“自主学习”。AlphaGo Zero通过三天的“自主学习”便战胜了与人类棋手对决中取得胜利的旧版本AlphaGo,这是根据固定的围棋规则不断进行自我纠正的结果。相比之下,语法规则和话语规则并非胜负这样简单,句子的可接受程度往往有一定的范围,判断时甚至不能仅凭某一说话人的语感而需进行一定规模的语言调查,且仍有较大比重的语言规则由于停留在主观层面而不可论证,用普通的算法和程式难以进行准确而全面的描写与限定。因此,人工智能在语言输出上要达到“自主学习”的程度绝非易事。人类在语言习得的过程中同样也离不开修正环节,这往往依靠外界环境纠正(如父母对儿童的纠正)和记忆、自省式纠正等,而这些同样建立在语言习得机制上。

  差异二:过程。语言交际以信息(message)为核心,以渠道(channel)为载体,在“编码—发送—传递—接收—解码”这一闭合式的信息交际轮中,要进行新一轮编码(encode)需先解码(decode),即“识别”与“理解”。人工智能目前在语音识别上已取得了很大进展,识别的准确度和信息的全面性已有较大提高,但“无心的机器”很难做到真正意义上的理解。目前人工智能的解决方法是建构词汇和结构在内的多个语义群,在解码中通过对关键词、句子基本结构的识别进行语义的归并,同时利用摄像头进行视觉跟踪和转移,扫描识别对方的面部表情来预测交际中的态度变化,并调动机器面部肌肉和肢体动作进行模拟,达成语言输出和行为外化的对应,索菲亚在这方面的表现尤为突出。但事实上这种“对应”与真正意义上的“理解”存在着本质差异。

  相较于人工智能,人类在自然语言的理解上有更多内省的选择,最为显著的是认知语言学中乔治·莱考夫(George Lackoff)和马克·约翰逊(Mark Johnson)提出的概念隐喻理论(Conceptual Metaphor Theory,CMT),认为通过与外界的感知和互动所形成的认知中的“意象图式”是抽象概念的隐喻性表达。人们在获取具体概念时,通过对外界的感知和互动,形成物理实体的身体经验;而抽象概念的获得也扎根于感知与互动,通过与外界接触形成意象图式,再由意象图式作为隐喻性表达来表现和获取抽象概念。

  意象图式作为理论中枢,主要来自于人们的体验、经验,它赋予人类认知世界的能力。但目前要将这一理论直接投入运用还存在诸多困难。1.图式的相对泛化与模糊,暂时缺乏数量与比例的度量;2.图式的动态描写相对较少,偏向于静态观察和描摹;3.图式中往往着眼于内部结构,不同结构、层级的图式之间的互动关系关注较少;4.图式受不同语言的限制,对具体语言的观照并不充分;5.尚未建立一个跨语言、统一、完整的语言认知模型。其中,简单的描摹形状和表达相对位置(如“容器”“部分—整体”“中心—边缘”等)的意象图式,已经在认知心理学领域通过实验的方式进行了相关性和显著性证实,但对标识复杂关系的意象图式还缺乏可靠的实证方法和论证模式。

  从今后发展上看,可建立一个较为完整和统一的语言认知模型系统作为更高级的范式,从而顺利完成机器的前期读取和前端输入,即从自然语言输出的末端入手模拟人脑的思维调动过程,进而刺激并开发“机器思维”。

  差异三:表现。从索菲亚与人的交互可看出人工智能已能实现基本词汇的组合和句子的简单判断,但语言输出的过程中符合所属语言的自然表达、语境、语用含意,则是判定是否达到人类自然语言水平的三个主要衡量标准。

  1.所属语言的自然表达。以汉语为例,它是典型的语义导向和语用强势语言,主要表现为同一种语法关系可隐含较大的语义容量和复杂的语义关系,在语境允许的情况下部分句法成分可省略,词序也相当灵活。人工智能在规定程式下输出的语言往往是结构完整的规范作答,缺乏表达的灵活性,也不符合特定语言的表达习惯。虽可在前期大量输入语料库,但涵盖面仍受限且不一定适用当前语境。

  2.语境。语境分为大语境和小语境,前者包括大卫·贝罗(David Berlo)建构的S—M—C—R交际模型中知识、社会制度和文化等,后者包括正在进行的交际语境等。人工智能在语句选择中往往依照结构和语义规则,无法对具体语境进行准确判断,难以做到“在什么情景说什么话”。

  3.语用含意。日常交际中,句子的字面意义与说话人想要表达的实际意义往往并不等值,即“言下之意、弦外之音”,这种语用含意根植于语境和说话人真实意图中。人工智能可借助信息传递的外在渠道进行感官的识别和判断,但对于逻辑推理等还需要长时间的研究升级。

  通过分析现阶段人工智能语言输出与人类自然语言在产生、过程、表现上的区别与差距,人工智能在语言输出上的发展困境可作如下总结。

  1.人工智能缺乏“语言习得机制”的生理基础,只能通过程式和算法实现一些简单的、规则明确的、有限的表达。

  2.人工智能在语言输出中缺乏有效的纠正性反馈机制,因此难以达到“自主学习”的程度,大大限制了输入和输出的容量。

  3.诸多语义规则、句法规则以及新兴的认知范式缺乏实证性,难以直接、准确、全面地投入应用,这也要求语言学家对语言规则和规律进行更为深入的研究和更为清晰的梳理。

  4.人工智能目前仍然是“无心的机器”,不同因子之间的外在“对应”并不能解决内在意义“理解”上的难题,对于语境的把握和逻辑的判断还需更为可靠的模型和范式。

  索菲亚与交际对象的问答大多为提前设定,这也是社会舆论中将其看作“应答机器人”而非“交互机器人”的主要论据。但在这些发展困境的背后,也必须看到人工智能在语言输出上为更好地模拟人类自然语言所获得的突破和成就,比如语音识别技术的升级,多感官、多模态的识别,语言表达的完善等,这些均为人工智能在语言输出中的发展奠定了坚实的基础。基于目前的科学技术水平,人工智能语言输出与自然语言存在着诸多差异,包括不少根本性的差距,这就需要寻求更为高级的范式来跨越两者之间的鸿沟。

  (作者单位:中国人民大学文学院)

责任编辑:王宁
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026