数字技术与大语言模型时代
2023年09月05日 09:39 来源:《中国社会科学报》2023年9月5日第2728期 作者:陈晓东

  在人类发展史上,由于技术进步带来的全新产品与服务,不仅满足了既有的需求还创造了新的需求。随着数字技术的广泛应用,以智能化为特征的第四次工业革命已经悄然出现。ChatGPT由于具备了较为流畅的逻辑性对话和交互能力,体现出具有高水平结构复杂性和大量参数的大模型可以实现深度学习,一经问世就备受市场关注。从本质上讲,这种大模型是大语言模型(LLM),具有大规模参数和复杂网络结构,引发了人工智能生成内容(AIGC)技术的质变。与传统语言模型不同,大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,能够自动学习语法、句法、语义等多层次的语言规律。人工智能的大语言模型参数一般有1亿多个,且这一标准还在不断提高,而比大语言模型更大、更复杂的人工神经网络模型,通常拥有数万亿到数十万亿个参数的超大模型。超大模型通常被用于解决自然语言处理(NLP)中的问答和机器翻译、计算机视觉中的目标检测和图像生成等更为复杂的任务。从人工智能的生成角度来看,其模型可以根据文本提示生成代码,还可以解释甚至在某些情况下调试代码。这一过程不仅可以实现文本、图像、音频、视频的生成并构建多模态,还可以在更为广泛的领域生成新的设计、知识和思想,乃至实现广义的艺术和科学再创造。

  大语言模型的训练需要大量的计算资源和数据。OpenAI就用了数万台CPU、GPU(图像处理单元)和多种技术对其模型进行优化调整。2018—2023年,OpenAI的大语言模型实现了数次迭代;OpenAI还提供了API接口,使得开发者可以利用大语言模型进行NLP的应用开发。这是在数学、统计学、计算机科学、物理学、工程学、神经学、语言学、哲学、人工智能等诸多学科融合基础上的一次突变。正如谷歌研究院、斯坦福大学和DeepMind联合发表的《大语言模型的涌现能力》中所提及的:“许多新的能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。”因此,大语言模型的训练和调整需要极其巨大的算力、算法、数据、技术以及超大规模的投入与协作,而前三者作为人工智能的三要素,在产业数字化的智能升级进程中发挥着巨大作用。其中,数据是生产资料,算法代表新生产关系,算力作为新生产力支撑着算法和数据,而算力水平又直接决定数据处理能力的强弱。在复杂的算力场景中,如何组合不同的算力类型,是降低成本并最终得到市场认可的关键。

  当前,算力已成为全球主要国家的战略布局核心,更成为全球战略竞争新焦点,对于我国在推进新型工业化过程中抢占新一轮科技革命和产业变革制高点同样具有深刻意义。大语言模型对算力的要求更多地聚焦在智能算力上,预计到2026年,中国智能算力规模将达1271.4 EFLOPS(即每秒浮点运算次数),年复合增长率达52.3%。随着“东数西算”工程与新型基础设施等政策出台,我国算力整体布局从东部地区开始逐渐向中西部地区延伸,因此要鼓励有条件的地区因地制宜探索试点算力新领域。在加大算力作为经济发展重要底层支撑的同时,还要着力培育并加快建立我国人工智能发展的完整生态。OpenAI专注于大语言模型研发,算力由微软公司完成,数据由专门公司负责清洗……OpenAI正是在整个人工智能生态中完成了大语言模型开发,这样的多方协作生态不断促使各参与主体的自主创新与协同发展。发展我国大语言模型,必须建立一个统一的大语言模型平台和基座,对接国产算力公司并做好接口,让所有企业都可以参与使用,这样才能促进人工智能尤其是大语言模型的生态链建设,在同经济社会发展深度融合中推动我国新一代人工智能健康发展。

  (作者系中国社会科学院工业经济研究所研究员)

责任编辑:张晶
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026