首页 >> 图书情报学
开放数据的内涵认知及其理论基础探析
2017年08月02日 08:31 来源:《图书馆理论与实践》 作者:马海群 蒲攀 字号

内容摘要:我国各类数据公开力度与国际水平相比存在明显差距,开放数据现状与数据需求之间的供求关系也表现出非平衡性。

关键词:开放数据;大数据;知情权;数据权;数据价值

作者简介:

    原题:开放数据的内涵认知及其理论基础探析

  作者简介:马海群(1964- ),男,黑龙江大学信息管理学院教授,博士,博士生导师,研究方向:信息政策与法律研究;蒲攀(1990- ),女,陕西人,黑龙江大学信息管理学院在读研究生,研究方向:信息资源管理研究。

  内容提要:我国各类数据公开力度与国际水平相比存在明显差距,开放数据现状与数据需求之间的供求关系也表现出非平衡性。近年来,数据中心联盟(DCA)、开放数据中心委员会(ODCC)等的相继成立,以及《促进大数据发展行动纲要》等相关政策的颁布,表明了我国加入全球开放数据运动的积极态度。本文从开放数据的定义、类型以及其与大数据、开放源代码、开放获取、信息公开等概念的辨析入手,深入分析开放数据的内涵,并对知情权理论、数据权理论和数据价值理论等开放数据的理论基础进行探究,试图丰富我国开放数据的理论研究体系。

  关 键 词:开放数据 大数据 知情权 数据权 数据价值

  标题注释:本文系国家社科基金重点项目“开放数据与数据安全的政策协同研究”(项目编号:15ATQ002),黑龙江大学研究生创新科研项目“大数据环境下我国开放数据政策模型研究”(项目编号:YJSCX2015-066HLJU)的系列成果之一。

  中图分类号:G252.8 文献标志码:A 文章编号:1005-8214(2016)11-0048-07

  1 引言

  从2009年起,随着美国、英国、加拿大、新西兰等国政府相继宣布他们的公众信息开放计划,开放数据开始受到主流媒体的关注。笔者以为,全球数据资源急速膨胀的倒逼、信息公开实践的推动、后信息时代大众创新的需求驱动、开源理念与开放思维的普及、公众政治参与意识的觉醒等共同推动了全球开放数据运动的兴起。在我国,国家主席习近平曾指出,实现“中国梦”的关键在于共享。这种共享是方方面面的,我们认为,数据的开放就是其中很重要的一个方面。它不仅是促进我国民主社会中公众知情权、数据权等基本权利普遍实现的必要手段,也是促进大数据时代以价值发现为主要目标、以数据驱动为主要方式的社会创新和大众创新的重要途径。

  随着国内数据中心联盟(DCA)和开放数据中心委员会(ODCC)等的相继成立,2014年和2015年开放数据中心峰会的召开,以及2013年《关于进一步加强政务部门信息共享建设管理的指导意见》和《关于促进信息消费扩大内需的若干意见》、2015年《促进大数据发展行动纲要》、2016年《贵州省大数据发展应用促进条例》的颁布,包括2015年着手进行的《中华人民共和国政府信息公开条例》的修订工作,[1]我国的开放数据运动已经有望跟国际形势接轨。

  2 开放数据的内涵认知

  2.1 开放数据的定义

  将数据开放有很多方法,在网络时代最直接的方式是提供数据在线版本。关于开放数据,至今尚无统一标准的定义,大多是针对开放性的描述,以下介绍几种典型定义。

  开放知识基金会:开放数据是一类可以被任何人免费使用、再利用、再分发的数据,在其限制上,顶多是要求署名和使用类似的协议再分发。[2]维基百科:开放数据是指数据应该免费提供给任何人,以便他们按照自己的意愿自由地访问、使用、修改和再发布,而不受版权、专利权或其他控制机制的限制和约束。[3]乔尔·古林:那些已经被政府或者其他组织发布,任何人都能获得并能用于任何商业或者个人目的的数据。[4]相丽玲:一种自然属于或被许可进入公有领域,可以面向所有人自由使用或被授权利用、再利用和重新分配的数据。[5]李佳佳:开放数据不是可供人们获取的数据,也不是免费的数据,它是总是被给予的数据,它依赖于见证者而存在。[6]

  笔者在此通过“数据”和“开放”两大要素来阐释开放数据的内涵。首先,“数据”(data)一词在拉丁文里是“已知”的意思,也可理解为“事实”。第一次开放数据的正式会议将“数据”定义为“一切以电子形式存储的记录”。[7]化柏林指出:数据是对客观世界的简单描述与观察记录,是对事实的编码化、序列化、数字化。[8]美国纽约州2013年11月发布的开放数据手册中对“数据”的解释是,数据是统计或事实性信息的最终版本,它以字母数字形式反映在列表、表格、图形、图表或其他非叙事形式的文件中,可以进行数字传输或处理。[9]综上可知,数据是字母数字形式的可供处理的客观记录。其次,开放数据所开放的不仅仅是单纯的某一个数据,更多的是某一类数据或者数据组合,通常被称为“数据集”,即保存在存储设备上的相关命名记录,以及包含序化和格式化,并以表格或非表格形式呈现的数据的集合。最后,数据的格式应该是开放的。开放格式的好处在于它允许开发者基于它开发不同的软件和服务,进而降低重用数据的壁垒,[2]常见的开放数据格式有CSV、RDF、JSON、KML/KMZ、XML、HTML、ZIP等。

  再从“开放”的角度理解,洪京一指出,开放数据并不是简单地将数据电子化、格式化,降低获取数据的难度和提高数据的再利用程度才是核心,该核心的实现正是对于“开放性”的要求。[10]真正的开放意味着对任何人不存在任何再利用数据的限制,无论是法律上、经济上还是技术上。2007年12月,第一次开放数据的正式会议制定发布了开放公共数据的8条标准和原则,要求数据必须是完整的、原始的、及时的、可读取的、机器可处理的、不需要许可证的、数据的获取必须是无歧视的(可获取性和可访问性)、数据的格式必须是通用非专有的(再利用和再分发)。[7]192阳光基金会在此基础上增加了可持续提供和最小化获取开支,英国皇家学会提出了“可评价”的标准。[11]以上准则使得开放数据具有“互用性”的特点,即协同操作或混合不同数据集成为可能,这也是数据共通共享的核心要义,互用性的存在直接推动着开放数据最终目标“数据增值”的实现。

  美国行政管理和预算局(OMB)认为,联邦政府发布的数据,其获得方式、产生的方法必须是透明的,要求政府在发布数据的同时,必须发布一系列文档,说明数据的来源、产生的方法,以及用户复制过程中可能出现的问题和错误。[7]132根据OMB的要求,任何人通过相同的方法,都能够产生和复制联邦政府发布的相同的数据,当然,这需要在相当透明和理想的环境下才能实现。但OMB的做法无疑拓宽了“开放”的内涵,即开放数据不仅仅指“数据”的开放,还应该包含“过程”的开放,即数据的来源、获取、处理等一系列数据操作方式的公开与透明。当然,偏差甚至错误也是允许存在的,数据开放的目的是实现价值增值,实现的方法除了挖掘数据本身及关联的价值以外,也应当包括数据纠错。

  2.2 开放数据的类型

  说到开放数据,大部分人会将其等同于开放政府数据或者政府开放数据,其实不然,如今的开放数据兴起于科研领域的开放获取。徐佳宁将开放数据的发展分为三个阶段:科学数据共享阶段、开放政府数据阶段和开放数据的结构化、关联化阶段。[12]所以我们认为如今各类符合“默认开放”原则的结构化、关联化数据也应属于开放数据的范畴。

分享到: 0 转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们