中国社会科学杂志社

首页>中国社会科学报>特别策划>特别策划内容

ChatGPT：形成机理与问题应对

2023年03月07日 10:40 来源：《中国社会科学报》2023年3月7日第2604期作者：沈威

　　2018年以前，在人工语言处理领域没有什么里程碑式的产品，甚至可以说没有什么像样的产品。但2018年，BERT（Bidirectional Encoder Representation from Transformers）和GPT（Generative Pre-trained Transformer）两个语言模型问世，且有一争高下之势，语言模型开始走向人类科技的舞台中央。2022年以来，各种大型语言模型更如雨后春笋般出现，平均每4天就有一个大型语言模型问世。比如，LaMDA、Gopher、PaLM、MT-NLG、Jurassic-1等。自2022年11月OpenAI发布语言模型ChatGPT（即GPT-3.5）以来，ChatGPT持续走红，成为近期的热点话题，ChatGPT也成了现象级产品。各种类ChatGPT产品也开始出现。本文便对ChatGPT的形成机理与问题应对进行一定探索。

　　ChatGPT是什么

　　要弄清ChatGPT的来龙去脉，有必要先弄清GPT的身份。GPT是一种语言模型，能够通过深度机器学习生成人类可以理解的自然语言。它由OpenAI公司训练与开发，并被微软公司在2020年9月取得了独家授权。2018年GPT诞生之后的初代版本也就是GTP-1（约5GB训练文本，1.17亿参数量）还平平无奇，即便是发展到第二代GPT-2（约40GB训练文本，15亿参数量）也没有给人们留下太多印象，因为确实也没有什么特别过人之处。不过，从第三代GTP-3（约45TB训练文本，1750亿参数量）开始，GPT-3就显示出了超强的能力，开始在自然语言处理领域大放异彩。

　　自2022年5月开始，GPT-3以几何级数量增加知识储备，每天新增的词汇量高达450亿词。相对于2021年，GPT-3每天新增的词汇量整整增加了10倍，其文本生成能力也获得大幅增长。人们只需要给出简单的提示，GPT-3就能自动生成完整的、通顺流畅的长文章。GPT-3也因此在NLP领域崭露头角。不过，GPT-3也有不少缺点。作为预训练模型的GPT-3是通过海量数据（约45TB的训练文本）在超大参数量级（1750亿参数量）模型上训练出来的，而这些样本中各种观点参差不齐，很大程度上会在某些问题上带有偏见性。

　　为优化GPT-3的不足，OpenAI对其进行了改进，加入了指示学习（Instruct Learning）、提示学习（Prompt Learning）、微调（Fine-tune）以及人工反馈的强化学习（Reinforcement Learning from Human Feedback），使ChatGPT进入GPT-3.5时代。有了以上四项关键技术的加持，ChatGPT相对于GPT-3不仅参数量大大减少，且在聊天领域的文本生成能力大大增加。ChatGPT对GPT-3的优化可以分为3个步骤。1.利用人工标注的数据微调GPT-3。2.训练一个符合人类评价方式的评价模型Reward Model，对给定的上文与自动生成的回复打分并对分数按从高到低排序。3.利用训练好的Reward Model指导GPT-3进一步进行微调，使模型生成更加符合人类习惯的聊天文本。

　　在询问ChatGPT“你有什么功能”时，它回答道：“作为一个AI助手，我可以提供以下一些功能：1.问答：我可以回答各种问题，例如科学、历史、文化、语言、计算机等方面的问题。2.翻译：我可以将文本或语音翻译成多种语言，例如英语、法语、中文等。3.对话：我可以进行智能对话，回答各种关于生活、工作、学习等方面的问题。4.生成：我可以生成文本、图片、音频和视频等多种类型的内容，例如文章、摘要、图像和音乐等。5.学习：我可以根据用户的反馈和数据进行学习和优化，提高自己的表现和性能。6.娱乐：我可以提供一些娱乐功能，例如笑话、游戏、音乐等。总之，我是一款功能多样、灵活性强的AI助手，可以帮助用户解决各种问题和需求。”其实，ChatGPT拥有的问答、翻译、对话、生成、学习和娱乐这六个技能并不在一个层面。从逻辑关联上看，问答、翻译、对话、学习和娱乐这五个技能都是“生成”的子类。从表现形式上来讲，翻译、对话、生成、学习和娱乐都是“问答”的子类，即根据用户的提示，机器给出回答。

　　ChatGPT的利弊

　　ChatGPT在推出两个多月时，月活用户便已突破1亿。这从侧面反映了ChatGPT在对话生成、问答系统、文本生成、文本翻译等方面的强大能力。ChatGPT具有如下优势。1.知识面广泛。相对于人类而言，ChatGPT的知识面更广泛。人类个体的时间、精力包括脑力都是非常有限的；ChatGPT则是利用深度机器学习方法对海量数据进行训练，并通过人工反馈的强化学习得到的语言模型，其知识面的广度要远多过人类个体。2.较强的自然语言生成能力。ChatGPT有较强的自然语言生成能力，这意味着它可以一定程度地理解人类语言，包括各种方言和口音，能够回答各种形式的问题。尤其是当文本中出现语法、拼写等错误时，它可以自动进行纠正，确保用户能够得到准确的答案。3.具有一定创造性。由于ChatGPT可以记住之前的交互内容，并接受人工反馈的强化学习，这意味着它能较好地学习人类的偏好和习惯，并根据这些信息提供更好的答案。所以，ChatGPT在创作或回答问题时生成的文本内容（如诗歌、小说、新闻、对话等）很像人类的风格，也使得ChatGPT在创造性上优于以往的文本生成模型。4.应用领域广泛，前景巨大。ChatGPT可以应用于多种场景。比如，在客户服务、自然语言生成、语音助手、问答系统等领域，ChatGPT都能胜任，并能够较为出色地完成一些基础任务。ChatGPT的更多使用场景也在不断拓展，发展前景广阔。

　　不过，ChatGPT并非完美无缺，目前尚无法跨越以下壁垒。1.缺乏真实情感和思想。由于ChatGPT在训练语料里很难获取到人与人之间的表情、姿态以及其他语境下的多模态信息，所以它虽然具有较强的生成能力，生成的文本合乎语法，四平八稳，但是却很难创造出能与人们共情的内容。2.容易形成带有偏见的观点。由于喂给ChatGPT的数据都是历史数据，它学习这些历史数据后很可能会根据所学内容形成偏见。尤其是ChatGPT接受了人工反馈的强化学习，就难免会使很多结论带有主观性，对某些问题易形成偏见。3.容易一本正经胡说八道。由于ChatGPT在生成答案时，往往是通过词语和词语之间的关联关系生成文本，但它却不能判别生成文本内容的真伪，所以很可能会传播与事实不符的情况。4.容易被欺骗从而给出违背伦理道德的建议。ChatGPT本来已由开发者设置好道德和伦理标准，用户询问的事情如果违反道德和伦理标准，ChatGPT是有权拒绝回答的。但由于ChatGPT的反馈结果极易受到prompt的影响，同样一个问题，给出的prompt不同，生成的结果就不一样。用户能够通过伪装、欺骗，轻易使ChatGPT放弃掉开发者为之设定好的道德和伦理标准。

　　应对ChatGPT带来的问题

　　ChatGPT的出现会对很多行业带来冲击，其自身利弊及产生的科技伦理等诸多问题，需要我们深入思考并给出解决之道。1.ChatGPT的定位。在人类的工作和学习中，ChatGPT只能是从属者，人始终是第一位的。虽然ChatGPT的知识面很广，也具有一定的创造性，但这种创造性是有限的。离开了人的创造性，ChatGPT很难有所作为。由于ChatGPT还是基于prompt驱动的，要解决同样一个问题，不同的prompt产生的结果会天差地别，prompt的提出本身也是需要创造性的。这也催生了大量专门提供prompt的从业者。2.AI文本生成的检测亟须解决。ChatGPT的文本生成带给人们的便利显而易见，在避免人类进行重复性工作的同时，也带来了诸多现实问题。如果大部分人都使用人工智能生成的文本，将是非常可怕和可悲的事情，这会弱化人类思维能力。缺少思考、缺乏创新，将会导致社会的倒退。如何有效、高效地判定某个文本是否为人工智能自动生成，或具有重要意义且迫在眉睫。3.相关法律法规的建立健全。由于训练ChatGPT的原始数据在分布上不一定合理，而且OpenAI也只是雇用了40个数据标记员进行人工反馈的强化学习和修正，ChatGPT自动生成的文本不可避免地会有偏见甚至是违法的内容，在很多领域的使用理应受到限制。相关法律法规亟待健全，任何科技产品都应在法律框架内合法使用。

　　可以说，ChatGPT的出现不仅颠覆了人们对传统聊天机器人的认知，也会带来许多行业的革新。随着ChatGPT的流行，不少类ChatGPT的产品也将不断出现，无论是Bard，还是ERNIE Bot，抑或其他类似产品，都需要进行人工反馈的强化学习，会生成带有偏见的观点。对此，我们应在监管手段和方法上做好顶层设计，提前布局。

　　（作者系华中师范大学语言与语言教育研究中心副教授）

责任编辑：张晶

重点推荐