内容摘要:统计表明,整个人类文明所获得的全部数据有90%是过去两年内产生的。大数据时代给人类带来无限的数据信息、数据知识和数据财富。但中国教育还远离大数据时代和大数据精神,加之数据增长的不平衡性、数据共享的不公平性以及数据统计的不真实性,使得数据分析者、研究者与决策者再一次陷入结构性短缺、集团化占有、分散化使用和有限性分享等新的数据困惑之中。
关键词:大数据时代;教育数据;数据困惑
作者简介:
作者简介:高书国,教育部教育发展研究中心研究员,北京 100816
内容提要:统计表明,整个人类文明所获得的全部数据有90%是过去两年内产生的。大数据时代给人类带来无限的数据信息、数据知识和数据财富。但中国教育还远离大数据时代和大数据精神,加之数据增长的不平衡性、数据共享的不公平性以及数据统计的不真实性,使得数据分析者、研究者与决策者再一次陷入结构性短缺、集团化占有、分散化使用和有限性分享等新的数据困惑之中。
关 键 词:大数据时代 教育数据 数据困惑
维克托·迈尔-舍恩伯格(Viktor Mayer-Sch
nberger)是最早洞见大数据时代发展趋势的数据科学家之一,2012年出版的《大数据》一书是“大数据”系统研究的先河之作。进入21世纪第二个十年,人类正式拉开了从小数据时代进入大数据时代的序幕。英国学者维克托·迈尔-舍恩伯格和肯尼思·库克耶在其著作中提出世界进入大数据时代:“大数据开启了一次重大的时代转型。”“这仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”[1]与全球大数据景象相比,教育信息化、数据化相对滞后,教育领域或成为大数据时代的“慢热领域”。教育特别是教育研究面临大数据时代的新的数据挑战和数据困惑。
一、从小数据时代进入大数据时代
人类原始时代早期所创造的数的概念、数的方法和数的科学,为东西方文化的发展提供了共同的智慧财富。人类对于数据价值的认识可以粗略地分为三个阶段:一是以经验科学为基础判断数据价值的“小数据”时代;二是以计算机为基础追求数据精细化时代——从小数据向大数据过渡时期;三是以系统性数据资源为基础深入挖掘数据关系的大数据时代。
(一)以经验科学为基础判断数据价值的“小数据”时代
早在数千年以前人类就开始计量数据、运用数据和分析数据。人类有记载的、最早的计数发生在公元前8000年。中国古书《易·系辞下》有记载:“上古结绳而治,后世圣人易之以书契。”古书《易九家言》记载为:“事大,大结其绳;事小,小结其绳,之多少,随物众寡。”在西方,自圣经时代开始,政府就通过人口普查来建立大型的国民数据库。[2]同样,在古代波斯也有结绳记事的记载。据说波斯王大流士给他的指挥官们一根打了60个结的绳子,并对他们说:“爱奥尼亚的男子汉们,从你们看见我出征塞西亚人那天起,每天解开绳子上的一个结,到解完最后一个结那天,要是我不回来,就收拾你们的东西,自己开船回去。”[3]
从古代人结绳记事起,人类数十万年依靠数量概念和数量科学推动着社会经济与人类自身的发展。人类的先知们凭借自身与观察到的经验,发现了数据对于自然界的物质生产、社会界的精神生产以及人类自身的自我生产、存在与发展的重要价值。
人口普查是一种国家层次的重要的“数据指标行动”。据有关资料记载,中国是世界上最早统计人口的国家之一。相传最早在公元前210多年前的夏禹时代就有过人口统计。中国古代封建王朝设立户部,“户部”主管户口、赋税等,是负责统计人口的机构。西周的人口统计不但有公开的人口调查,还有专司人口统计的官吏,称为“司民”。《周礼·秋官》载:“司民,掌登万民之数,自生齿以上,皆书于版,辨其国中,与其都鄙,及其郊野,异其男女,岁登下其死生。”这里,我们不难看出,周朝时人口普查就已经初步设立了年龄、“国别”、城乡、男女、生死等人口的重要指标。东汉时期的户口调查进一步制度化,称为“案比”,即案验、比较,在每年的八月进行。中国魏晋时期皇甫谧著《帝王世纪》有记载:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”南朝宋范晔《后汉书》与宋元之际马端临《文献通考》,都有同样记载。有的统计学者认为这是“我国最早的统计数字资料”。在数千年的农业社会中,人类不断探索新的科学技术,但是对于统计数据的收集、挖掘和使用始终处于较低水平。
(二)以计算机为基础追求数据精细化时代
计算机技术的发展与进步,成为20世纪影响经济社会和科技发展最为重要的事件之一。以计算机技术为引领的信息化、数字化时代,为数据收集、整理、分析和使用提供了前所未有的便利——数据收集更加便捷,数据整理更加科学,数据分析更加深入,数据使用更加广泛。但是,这一阶段计算机技术的主要应用范围局限在数值领域,追求数据的丰富性和精细化,成为这一阶段数据发展的典型特点。
1997年《经济合作与发展组织教育要览》明确指出:“在现今的教育可比数据管理上仍有不足之处。因而,迄今所取得的进步已清楚表明在指标的涵盖范围、有效性、可比性、精确性和及时性上,还需要做很大的进一步改进。”[4]从更加科学的角度分析,在计算机出现之前,人类的经济和政治生活根本就不是以数据为基础的时代,进一步说“小数据时代是计算机背景下以数据为基础的时代”。小数据时代,由于数据的紧缺,研究者更加追求数据的精确性。中国学者张芳认为:“传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但‘质量’的概念被拓宽以后,‘统计数据质量’的概念也有必要拓宽。从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为‘影响统计数据满足用户需求的特征’。”[5]
自20世纪90年代起,网络技术、数码技术和电子信息系统的发展,推进计算机技术从数值领域发展到非数值领域。数据技术经历了一次革命性的变化,多媒体技术使得文字、图形、影像、音响和动画技术融为一体,数据的生产、复制和储存能力急骤增长。世界各国相继实施和推进数字化战略,数字城市、数字社区和数字家庭不断涌现。从磁盘、光盘,到互联网,传统媒体数字化转型,以手机带动的新型传输方式的发展,极大地提升了大规模数据传输速度。人类开始从小数据时代向大数据时代过渡。
(三)以数据战略资源深入挖掘数据关系的大数据时代
美国人迈克尔·考克斯和大卫·埃尔斯沃思被认为是第一次提出“大数据”概念的工程师。1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”[6]该文是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。
2000-2010年,被视为“大数据时代”的奠基之年。互联网数据中心估计,2002年世界产生了5EB新数据,2006年为161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。而实际上,据2010年和2011年同项研究所发布的信息,每年全球所创造的数字化数据总量超过了这个预测,2010年达到了1200EB,2011年增长到了1800EB。
2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。经过十年的发展,新的数据标准、规则更加成熟,无线通信新技术在企业生产、市场流通与大众消费领域日益扩大。在云计算普及化以及信息环境更加完善的前提下,越来越多的企业、社区和家庭使用更高级别的数据标准,各种层次和各种功能的数据中心如雨后春笋应运而生,数字城市、智能网络和数据系统不断涌现。







