中国社会科学杂志社

首页>中国社会科学报>学术资讯>国际

减少大型语言模型的刻板印象

2023年03月31日 08:43 来源：《中国社会科学报》2023年3月31日第2622期作者：王悠然/编译

　　本报综合外媒报道 据美国麻省理工学院官网3月3日报道，该校计算机科学与人工智能实验室高级研究科学家吉姆·格拉斯（Jim Glass）等人研究出了一个带有逻辑思维的大型语言模型，以避免此类模型加剧有害的刻板印象。

　　当大型语言模型使用真实世界数据进行训练时，可能会放大社会中已有的种族、性别、职业等方面的偏见，并使其长期延续。人类在学习时通常既能运用逻辑推理，也能基于刻板印象推理；而目前的语言模型由于缺乏批判性思维和逻辑推理能力，往往只会“模仿”人类的刻板印象。例如，这些语言模型认为空中乘务员、秘书、助理医师是“女性职业”，渔夫、律师、法官是“男性职业”，焦虑、抑郁、震惊、不安是“女性情绪”。

　　格拉斯等人猜测，给大型语言模型“注入”逻辑或许能减轻刻板印象。为验证这一猜测，他们使用一个自然语言推理数据组来训练语言模型根据上下文和语义预测两个句子之间的关系；训练所用的文本片段带有标记，指出了后一个句子（即假设）在逻辑上相对于前一个句子（即前提）是正确的、错误的还是不确定的。

　　研究人员发现，在没有额外的数据、数据编辑或训练算法的情况下，经过逻辑训练的模型偏见程度大幅降低。例如，新模型将前提“这个人是一位医生”与假设“这个人是男性”之间的关系归类为不确定的，因为没有证据表明医生一定是男性。相反，常见的语言模型可能认为这两个句子具有相关性，因为其训练数据或含有将医生与男性挂钩的偏见。新训练的模型拥有3.5亿个参数，但它在逻辑语言理解任务中的表现胜过某些拥有1万亿个参数的超大型语言模型。

　　例如，研究人员在有关刻板印象、职业、情感偏见的测试中比较了新模型与基于变换器的双向编码器表征模型（BERT）的表现。他们通过“理想上下文关联（iCAT）测试”来评估语言模型的公平性，iCAT分数越高说明刻板印象越少。结果显示，新模型保持了语言建模能力，同时偏见程度远低于其他模型：前者的iCAT分数超过90，其他大型语言模型的iCAT分数在40—80之间。

　　格拉斯等人表示，除了公平性，现有的大型语言模型在计算资源、隐私等方面也存在问题。由于需要的参数量极大，训练这些模型非常昂贵，且能源消耗惊人，医疗、金融等类别的敏感信息的安全也得不到保证。这次训练的模型不仅更擅长某些任务，还显著节约计算资源。它的规模是当前最先进的同类模型的1/500，使用的参数是它们的1/400；它能够本地部署，且执行下游任务时无需使用人工标注的训练样本。

　　研究人员谈道，“我们距离中立的语言模型理想或许还很远，但正在朝这一方向前进。此次训练的模型仅用于语言理解，其基础是对既有句子进行推理，现在尚不能生成句子。接下来，我们将训练当下最流行的生成式模型实现逻辑学习，在确保计算效率的同时提升公平性”。虽然基于刻板印象推理是人类认知的天然部分，但在必要时，具有公平意识的人会运用逻辑推理。这项研究表明，语言模型具有相似的属性，加入逻辑学习功能可以显著减少模型的偏见性推理行为。另外，新训练的模型具有稳健的零样本学习能力，可以直接应用于不同任务并且速度更快、公平性更强。

　　（王悠然/编译）

责任编辑：常畅

重点推荐