重新审视数据民主和数据寄生
2024年10月16日 10:42 来源:《中国社会科学报》2024年10月16日第2993期 作者:王俊美/编译

  本报综合外媒报道 近日,“社会科学空间”网站刊发美国耶鲁大学生态与进化生物学系助理教授C.布兰登·奥格布努(C. Brandon Ogbunu)的文章。文章认为,一个可供他人获取和使用数据的学术生态系统会催生更好的科学与社会。但是,当数据的使用方法改变或模糊了数据生产者的意图时,就会产生“寄生虫”现象,使一部分人获益不当,这一议题在当前技术飞速发展的时代尤为值得探讨。

  《新英格兰医学杂志》2016年曾发文声讨学术界的“研究寄生虫”,即那些只挑选他人数据而非自己生成新数据的人。支持这一观点的原因包括,新数据的产生耗费了数百万美元的研究资金和无数的工时,这一过程需要付出艰苦的工作和努力。但最终这篇文章的观点受到了广泛的批评。奥格布努表示,随着人工智能技术取得新进展,重新审视“研究寄生虫”议题,可以为讨论数据民主及分享伦理提供新的视角。具体来说,ChatGPT等生成式人工智能工具的基础是大型语言模型,它们在如何寄生于免费可用的数据方面正面临伦理挑战。与此同时,这些讨论引发了关于数据安全的新对话。

  奥格布努认为,《新英格兰医学杂志》2016年的文章引发的激烈反弹大多是围绕其传递出的反科学精神展开的。例如,人们认为,元分析——重新分析从选定的研究中获得的数据——是一种应该受到鼓励的科学实践,许多关于自然世界和人类健康的突破性发现都来自这种实践。此外,对“研究寄生虫”的批评破坏了数据共享的伦理目标和开放科学的初衷,因为在开放科学中,科学家和公民可以从数据访问中受益。

  关于数据民主化重要性的讨论已经存在很多年,并催生了科学实践中一些有意义的变化。知识共享的许可协议已经成为许多领域发表研究成果的标准。新冠疫情的发生是全球数据共享的分水岭,当时,病毒基因组序列和临床元数据几天之内就可以在世界范围内实现共享,使各地的研究人员能够同时了解到最新情况。相关的预印本文章,即在接受同行评议之前发布的论文,可以让科学家和公共卫生专家以开放获取的方式分享完整的报告,暂时规避了效率低下的同行评议过程。

  奥格布努表示,鉴于此,数据民主化似乎已经发展成为一种普遍做法。但历史告诉我们,新技术的诞生往往会使成熟的社会和文化规范复杂化。大型语言模型和其他人工智能技术颠覆了现代社会发展的许多方面。在数据民主方面,这些技术也正在围绕数据所有权的意义、哪部分人可以免费使用数据以及因何目的使用数据等,引发人们新的思考。ChatGPT正在开放性和不透明之间游走。在开放性方面,ChatGPT的一个版本是免费提供给任何人使用的。但这种表面上的可访问性是对数据实践的干扰,这些工具的构建使用了哪些数据和信息以及它们是如何被使用的,人们可能永远不会知道。

  在奥格布努看来,新技术的发展可以重新唤起关于“研究寄生虫”的争论。大型语言模型与生物学对于寄生的定义有共同的特点,它们不是简单地使用从世界中生成的资源,而是在不考虑使用或生成数据的人的背景或意图的情况下消费这些资源。这种数据背景删除和重新配置是人工智能可以制造幻觉、制造无意义信息的部分原因。

  总的来看,重新分析数据之所以有必要,是因为原始研究的作者可能在实验构建、数据收集方法和统计推理方面作出了有问题的决定,这也是《新英格兰医学杂志》2016年的文章招致批评的原因。但是,在讨论如何将数据转化为产品时,人们普遍抱怨科技公司盲目使用数据、忽视数据产生的原因和条件,这是非常重要的问题。奥格布努认为,对待数据的两种不同观点,有助于引导公众讨论数据民主和数据寄生之间的界限。人们不应该抱怨人工智能使用了原始数据,而是应该把关注重点放在这种数据使用是否得当上面。

  (王俊美/编译)

责任编辑:张晶
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026