中国社会科学杂志社

首页>中国社会科学报>学术资讯>国际

ChatGPT改变人类知识生产方式

2023年02月20日 09:46 来源：《中国社会科学报》2023年2月20日第2593期作者：本报记者王俊美

　　ChatGPT由美国人工智能研究公司OpenAI开发，一经推出便受到全球广泛关注，并引发广泛的思考与讨论。ChatGPT是一种大型语言模型（LLM），能够在数据基础上进行自主学习，并智能生成复杂的文字。然而，目前ChatGPT和其他大型语言模型还无法确保生成文本的准确性，甚至可能扭曲科学事实、传播错误信息。不过，可以预见的是，这种人工智能生成内容（AIGC）类的人工智能技术将对知识的定义、知识的生产方式以及技术人员的地位产生巨大影响。本报记者就这些议题采访了有关学者。

　　ChatGPT跨越人工智能技术新门槛

　　英国爱丁堡龙比亚大学学习与教学提升系助理教授萨姆·伊林沃思（Sam Illingworth）在接受本报记者采访时表示，从目前来看，很难说ChatGPT会带来什么样的影响，这完全取决于人们对它的使用方式。除了教会人们如何使用ChatGPT以更有效地开展工作之外，我们还应该审慎考虑这项技术的局限性，确保在合乎伦理的情况下使用该技术。在伊林沃思看来，ChatGPT是一种弱人工智能，是一种不能实现真正的推理（Reasoning）和解决问题（Problem solving）的智能机器，未来此类技术将继续作为人们生活和工作的重要组成部分。当然，人类不必对此反应过激，因为弱人工智能只是更多地协助而非“取代我们的工作”。

　　美国密歇根大学信息学院教授富山健太郎（Kentaro Toyama）认为，以ChatGPT为代表的一系列人工智能技术具有两面性，从积极的层面看，人类的大部分工作可能会由机器完成；从消极的层面看，ChatGPT技术可能造成多重危害。具体来说，将会放大各种欺诈行为的影响，造成更多人口失业，扰乱日常的人际关系。富山健太郎建议，强大的技术需要严格的监管，应当放慢创新的脚步，留出时间来思考和制定适当的监管政策。

　　技术人员正取代专家创造权威知识

　　加拿大布鲁克大学政治科学助理教授布莱恩·哈格特（Blayne Haggart）表示，几个世纪以来，人们都将知识等同于科学，将科学作为一种知识形式，赋予理性和理论以优势地位。理论是人们关于世界如何运作的一系列想法，构成了塑造人类行为方式的环境。而科学就是要在现实世界中测试和完善这些想法，其目的是理解世界。理论总是受到有限的人类感知的影响，难以克服偏见和极端局限性。但通过批判性地审视理论与方法，人类也有希望增加对世界的理解。然而，近年来，随着数字化的发展，与数据收集和处理相关的专业知识几乎代表了各行各业的最前沿技术。ChatGPT延续了这一趋势，进一步证明了一种观念的兴起：如果能够收集足够的数据并且拥有足够强大的计算能力，就可以“创造”权威知识。在这种观念之下，技术人员而非科学家被视为知识最渊博的人，知识的权威不再属于各领域的专家，而是属于那些能够创建和操纵数字数据的人。简言之，知识本身正在被重新定义。

　　在哈格特看来，与科学思维及其对理论构建和特定情境知识的强调相反，ChatGPT和背后的思维不将知识等同于科学理解，而是等同于相关性。它反映了技术人员的想法，而不是科学家的想法。通过相关性获得知识，让大数据和人工智能技术存在一种潜在倾向：只要有足够的数据和足够的计算能力，计算机就可以识别各种相关性，这个过程不需要任何理论。与所有的机器学习模型一样，ChatGPT将词语、句子、段落和文本分解为数据，旨在寻找在特定情况下同时出现的词汇和句子的模式。该模型具有适应性并且可以产生复杂的输出，是技术与资金的胜利。不过，从本质上讲，ChatGPT仍然只是模式识别技术，就是根据样本的特征，用计算的方法将样本划分到一定的类别中去。

　　真正的威胁在于数据主义

　　荷兰乌特勒支大学媒体与数字社会教授何塞·范·迪克（José van Dijck）把那些相信数据可以说明一切的想法称为数据主义（dataism）。企业、学者和政府都深信，数据为人们提供了一种客观、中立甚至“革命性”的方式，通过这种方式可以更好地获取利润、了解社会以及开展国家事务。迪克表示，数据从来都不是独立存在的，关于数据的一切，如数据的选择、收集、存储和使用，都受到人类有限的感知和能力以及数据收集和使用环境的影响。由人类生成的数据有着天然的局限性，这也意味着计算机展示出的科学理解能力是一种错觉。在科学思维中，一项知识的合法性取决于科学家是否按照约定的方法得出结论并推动理论的发展，也即创造知识的过程。相比之下，机器学习的过程非常复杂，以至于对那些操作机器学习的人来说，其内部结构也常常是个谜。

　　机器学习本身并不是问题所在，数据主义才是真正的威胁。伊林沃思表示，数据主义引导下的观点非常危险。数据生成和收集的不准确，已经导致了许多丑闻。在更强大的人工智能出现之前，数据收集和分析的方式总会掺杂人类互动的因素，这也意味着存在数据错误和误用的可能性。ChatGPT的出现及时提醒人们，需要更加批判性地思考数据的收集、分析和使用过程，不应该把任何数据集中产生的内容当作全部事实。

　　哈格特认为，ChatGPT通过搜索各种资料将其转化为数据，并在没有创作者明确知情同意的情况下使用这些数据。像ChatGPT这样的大型语言模型会产生两个问题。第一，非专家类人群难以对产出内容进行评估。第二，高度信任相关性。当ChatGPT依靠相关性来生产知识时，最终会得到传统智慧和流行意见，但远远达不到准确性。

　　辨别控制知识生产的力量

　　当然，科学不会在数据主义的世界中消失，但会让知识的层次结构发生改变。哈格特表示，我们要研究哪些群体被视为重要知识的创造者和拥有者。不同形式的知识使不同的群体处于相应位置，而不同类型的知识工作者，如科学家、技术人员，将以不同的方式定义和使用知识。在数据世界中，掌握知识的力量在于那些可以调配资源收集与部署数据和计算能力并创建机器学习所需算法的个人和组织。他们的权威来自数据主义者的信念，即数据及其收集过程是中立的，他们创造的机器将产生权威且有用的知识，ChatGPT创造知识的方法反映了数据主义的知识观。

　　ChatGPT简洁的界面让人产生错觉，它输出的内容似乎是凭空出现的，由一台中立的机器提供。但是算法、计算机程序和机器学习过程均是由人们明确设计的，设计知识生产的力量是一种终极力量。美国哈佛大学伯克曼·克莱因互联网与社会中心研究员玛丽·L. 格雷（Mary L. Gray）提醒说，所谓的人工智能系统总是涉及幕后工作者，他们对内容或数据评估做出决策，这是一种内部视角。而从外部视角来看，由于缺乏科学验证过程，对技术的依赖使人们成为人工智能的被动接受者，对于这种知识形式感到敬畏而非理解。事实上，这剥夺了个人理解、质疑和挑战的能力。

　　在无法评估知识生产过程准确性的情况下，唯一的选择就是评估输出内容。人们要想做到这一点，就需要一种超越相关性的知识。哈格特认为，数据主义的危险在于自然地认定算法决定一切，算法程序可以产生合理的知识。然而，事实并非如此。2016年微软曾推出人工智能聊天机器人Tay，仅上线一天就因发表种族歧视言论被下线。ChatGPT的输出完全取决于团队“训练师”的选择，这些“训练师”决定哪些数据和数据集是重要的，并通过设计算法以遵循自己决定的相关规则。简言之，谁控制了聊天机器人的设计过程，谁就能塑造最终的产品。

　　让机器学习为公众服务

　　ChatGPT不是仅仅将写作或科研过程自动化，更多的是创造一种全新的知识形式，赋予相关性以合法性，并且将相关性的真实性评估安排在幕后，嵌入编程决策中。这种方法将科学理解置于次要地位，科学充其量只能起到一种评估作用。这些根深蒂固的利益，对于确保机器学习的发展方向符合公众利益构成了重大障碍。哈格特建议，要警惕数据主义，养成让机器学习为人们服务的习惯。

　　首先，由于机器学习过程存在复杂性和不透明性，所有环节都必须安排人作为直接负责任的决策者。无论是决策者还是受机器学习影响的个人，都必须能够解释和理解自动化过程中做出的任何决策。机器学习只能作为补充，而不是取代人类的功能。

　　其次，在创建大型数据集时，数据权利讨论需要超越对个人身份数据的关注。艺术家、作家和普通人的各类数据权利均应受到尊重，他们的一系列作品和表达构成了大型语言模型的基础。ChatGPT的出现将会对这部分人产生直接的影响。

　　最后，必须防止像OpenAI这样的公司将公众当作实验对象，来进行有效的营销活动。当前，一连串与ChatGPT相关的文章在各类平台涌现，即使是学界专家也在努力理解ChatGPT技术的内涵。现在十分有必要对这些公司进行关注，避免出现“作恶”行为。

　　几个世纪以来，人们一直将科学视为一种知识形成与理性思考的融合，坚持知识生产和验证过程的严谨性与透明性。然而，当前数据主义的蔓延似乎打破了长久以来的知识生产方式与科学理念，人们是否有意愿保持对科学的承诺、让技术为科学理解服务，这是围绕人工智能辩论的核心问题。ChatGPT无法回答这一问题，但人们对ChatGPT的态度就隐藏着答案。

责任编辑：崔岑

重点推荐