利用文本挖掘技术拓展学术传播新渠道
2019年08月02日 08:24 来源:《中国社会科学报》2019年8月2日第1748期 作者:本报驻波士顿记者 侯丽

  《自然》杂志官网近日发表学者文章,对美国科学家在印度尝试通过数据开采和文本挖掘技术来访问学术资源的途径和方法进行了分析。

  文中提到,过去一年里,美国数字技术专家卡尔·马拉默德(Carl Malamud)为绕开学术期刊的“付费墙”,与印度科研人员合作,共同搭建起了一个基于文本和图片的“巨型商店”,其中的数据主要是从自1847年至今公开出版的7300万篇期刊文章中提取和分类而来。马拉默德及合作伙伴称其为“JNU数据仓库”。他们此举旨在设法绕开出版商,使用计算机软件对人类已出版的文本和数据进行检索,提取论文的“主要见解”,即通过数据库获得专业学科领域的“观点集纳”,并以此为研究人员的工作提供启发和帮助。

  《自然》杂志官网评论认为,该项研究极有可能是人们能够免费获取海量学术文献,并利用计算机进行检索和分析的一次革命性尝试。但就目前来看,要实现其最终目标,还存在一些困境。例如,各大出版商出于商业利益等方面的考虑,对学术资源传播进行了控制和限制,马拉默德团队能获取的资源通常只限于论文摘要,而非全文。另外,目前需要本地访问“JNU数据仓库”才可获取其提取的学术资源,且只限非商业目的的研究人员申请进入。尽管该团队考虑在将来开发“JNU数据仓库”的远程访问功能,但马拉默德有意控制其开放节奏,暂持“谨慎而缓慢”推进开放的姿态。

  马拉默德对于当前文本挖掘的来源并没有进行完全公布,但他表示,并没有与出版商签订合同以获得更多学术资源的访问权限。从哪里获得学术资源本身并不重要,重要的是当前的数据挖掘工作极具消耗性。这影响了他们对数据的处理速度,因此在这方面亟须创新。

  印度德里国立法律大学助理教授阿鲁·乔治·斯卡里亚(Arul George Scaria)认为,“JNU数据仓库”目前在印度版权法下是合法的。但新德里维德恩法律政策中心研究人员普拉桑特·雷迪(Prashant Reddy)表示,大量复制期刊资源用于创建数据库,只能说暂时处于“法律灰色地带”。

  目前,一些国家的法律正在发生改变,允许非商业目的的研究人员不需要版权所有者许可即可获得他们所需的学术资源。但即便这种行为获得了相关法律支持,出版商也可以在当前的法律框架下,对学术资源的下载和使用采取一些“合理限制”。

  马拉默德承认,虽然其行为具有一定的法律风险,但从人类学术进步的角度来讲是值得一试的。尤其在印度,许多学术机构和研究人员没有资金购买大量学术资源,但他们在学术上急需推进研究和创新。马拉默德表示,不能期待通过欧美国家的法律进步来解决这些问题,因为很多发展中国家的科研人员对学术资源的需求是非常紧迫的。

  (本报波士顿7月30日电)

责任编辑:常畅
二维码图标2.jpg
重点推荐
最新文章
图  片
视  频

友情链接: 中国社会科学院官方网站 | 中国社会科学网

网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号

中国社会科学杂志社版权所有 未经允许不得转载使用

总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026