中国社会科学杂志社

首页>中国社会科学报>语言学

从肢体语言看“预训练”语言模型

2023年11月22日 11:05 来源：《中国社会科学报》2023年11月22日第2778期作者：简圣宇

　　“预训练”语言模型，即通过“生成式预训练转化”（Generative Pre-Training Transformer，GPT）开展深度学习的一种语言模型。“预训练”语言模型为人工智能使用自然语言与大众交流提供了高效、便利的渠道，其代表产品为OpenAI公司的ChatGPT，其他公司也纷纷推出了自己的产品。ChatGPT展现了强大的语言运用能力，并由此延伸出在人类社会生活各个领域的赋能潜力。随着“预训练”语言模型升级到更高版本，并以“GPT+”的形式与其他智能设备相结合，从而融入各行各业的日常场景之中——它可能成为一种如同电力、互联网那样影响人类社会方方面面的“通用技术”。在此过程中，语言学也由此具有某种影响科技发展的实力——毕竟人工智能的自然语言处理领域的研究也需要通过系统化的语言学分析方法推进。目前的“预训练”语言模型主要基于文本语言，但人类语言中还包括大量的肢体语言。“预训练”语言模型要想更好地同人类交流，则需要将肢体语言加入“预训练”内容之中。

　　肢体语言的内涵和意义

　　肢体语言不同于以文字形式表达出来的抽象符号语言系统，而是一种通过动作表达出来的具身语言系统，可以通过身姿、手势、面部表情、眼神等具体动作来单独使用，也可以通过语气、语调等形式配合有声言语使用，在交流过程中传达出主体的意图。倪海曙将“语言”分为三种：态势语、声音语和文字语。肢体语言虽然主要是一种“态势语”，但也以语气、语调等形式包含在“声音语”之中。有时，人们的交流甚至不需要言语，而只需要眼神沟通——各种意会都在眼神的变化之中。智能设备要想完整掌握人类语言，“预训练”语言模型则需要学习和掌握人类的肢体语言。

　　语言是传达意图的工具。马林诺夫斯基（Bronislaw Kaspar Malinowski）提出，“语言的最原始功能是作为行为方式，而不是思想的对应记号”。从广义上看，只要能以相对稳定的形式传达主体意图的方式，都可被视为一种“语言”形式。回溯人类语言发展史，其实肢体语言是一种远比符号语言更为古老、更为传神也更为微妙的交流形式。创造出文字符号，是人类文明演化史的标志性节点之一。因为文字符号这种更为高级、复杂的语言形式，携带的信息量比肢体语言更大，并且提升了言语跨地域、跨时间的传播能力。不过，肢体语言这种交流方式，往往能够更好地携带丰富、直观、微妙的情绪信息，让对方直接感受到发出者的情绪。肢体语言已内化到了人类的表达系统之中，能够更切身、符合本能地表达自身情绪，以至于我们有时隔着电话都会一边说话，一边习惯性地用手比画，以及一边显现出各种面部表情。

　　文本语言的表达局限

　　作为一种“预训练”语言模型，ChatGPT目前的几个版本都只能通过文字符号构成的文本语言交流。然而，句法语义分析有其局限性，如果只关注句法本身而不辅以关注对方表情和肢体动作等因素，那么解读出的信息就很可能是片面、残缺的。人们在日常的面对面交流过程中，为了充分理解对方话语之中包含的各种修辞意味，往往还需要结合对方的肢体语言进行判断。比如，当对方说“你太有才了”时，如果不能结合对方说话时的眼神、语调等，则有时会难以判断对方究竟是在称赞还是在挖苦，是肯定性表达还是否定性表达，从而无法采取相应的策略去灵活调整接下来的对话内容，以及为此做出相应的应对行为。所以，人类在开展日常对话的同时，通常会倾向于实时密切观察对方的具体肢体语言，从而确证自己所推测的对方的真实语义。

　　自然语言充满了各种修辞成分，而诸如“反语”“反讽”“夸张”等修辞手法都带来了超出字面意义的表达内容，必须结合语境来确定语义。比如，在父母批评撒谎的孩子时说“你可真聪明”、热得满身大汗的人抱怨“热死了”等语言现象里，“聪明”“死”等词语的具体意义都并非原义。在纯文本的语言环境中，只能让“预训练”语言模型通过识别句子里各个部分之间的语法联系来推测真实的语义。比如，通过识别“聪明”一词来关联“反语”，再通过给该句子添加“反语”的标签，对“你可真聪明”一句进行再解析。这样，前述句子的真实语义就可以通过“孩子”“撒谎”“满身大汗”等标记词来推导。我们阅读《三国演义》《红楼梦》等经典作品里那些讥讽的语言，就是运用这种“文本识别—意图推导”的路径进行的，而训练人工智能处理文本信息时，也是在采用此类模式。

　　“预训练”应涵盖肢体语言内容

　　人工智能若想以更为充分的拟人化形式进入日常应用场景，就需要有更为“善解人意”的语言模型作为内核来支撑。而若想让智能设备充分理解人类语言，则需要让语言模型所进行的“预训练”从静态文本扩展到动态视频，观察人的肢体动作、面部表情等肢体语言。人类有着非常丰富的面部表情，仅是表达情绪，就可以粗略分为生气、开心、沮丧、兴奋、惊讶、喜欢、厌恶、惊恐、平和等各种类型。而生气的表情又可以细分为从嗔怒到暴怒等程度不一的类型，涉及皱眉、挤眼、动唇等一系列动作的组合和转换。优秀的演员往往就是通过丰富、多变的表情，以及对于对话时所用语气、语调的细腻、精确的拿捏，来淋漓尽致地彰显出精湛的演技。为了严谨科学地理解面部表情所蕴含的情绪信息，心理学家自20世纪初就开始尝试从图像学和心理学的角度开展研究。比如，1918年兰菲尔德（Herbert Sidney Langfeld）就已发表了该领域的研究论文《从面部表情判断情绪》。如今有三维数据采集设备之后，更是可以通过面部建模的方式对该领域进行全面、系统的探究。不过，语音识别目前还有一些技术问题（如“鲁棒性”问题，以及距离带来的识别失真问题等）需要处理。

　　GPT发展到4.0版本后已初步具备“数字视觉”能力，能够识别图像里的诸多目标对象并将它们按照一定逻辑顺序关联起来。比如，将一张厨房照片里的食材、配料和器皿识别出来，然后给出相应的烹饪食谱。如果日后的版本还能进一步通过逐帧识别视频的形式对对象进行分析，那么相当于机器长出了“数字眼睛”。这意味着“预训练”语言模型在“数字视觉”能力的加持下与人类交流的能力获得提升，不仅可以通过文本方式交流，还能够通过识别人类的表情、身姿等肢体语言进行交流。语音采集设备进一步完善之后，“预训练”语言模型还可通过语气、语调等形式，更为完整和准确地把握人类意图。从理论上讲，以“预训练”形式来把握肢体语言不存在不可逾越的障碍。与文本语言需要大型语料库不同，理解肢体语言只需要基于计算机视觉对有限的肢体动作和面部表情进行建模，再运用语言分析对语气、语调进行分类定义，就能涵盖绝大部分基础性内容。

　　综上所述，肢体语言是“预训练”语言模型应考虑的重要因素，智能设备所依凭的语料库不能仅包括文本内容，还需要考虑肢体语言内容，并进一步升级能够识别对象肢体动作的“数字视觉”能力。这样，人工智能才能更加充分地理解人类语言，从而更高效且精确地与人类交流。

　　（作者系扬州大学美术与设计学院教授）

责任编辑：张晶

重点推荐