1983到2012:大数据发展演进大事记

近几年来,大数据一直是公共领域的一个热词,但其根源其实早已深植于整部IT发展史中。回溯过去30年,我们就会发现一些在影响着我们收集、管理和分析数据的关键事件,这些事件有助于解释为何大数据今天会如此热门的原因。

1983

IBM发布最新的关系数据库管理系统DB2,使用结构化查询语言,很快成为政府部门的主流产品。

1985

面向编程(OOP)语言,如Eiffel开始流行。

1990

用于互联网搜索的首个搜索工具Archie诞生。

1991

万维网(World Wide Web)利用超文本传输协议(HTTP)和超文本标记语言(HTML)逐渐成为信息共享的公共服务。

而Gopher作为互联网上分布、搜索和提取文档的TCP/IP应用层协议,可以说是早期Web的一个替代品。Gopher的出现导致了两个新的搜索程序,即Veronica和Jughead的出现。

1993

W3CCatalog发布,它是万维网上最早出现的搜索引擎。

1995

Sun发表Java平台,而Java语言则是1991年发明的。该平台在数据治理方面获得最广泛使用,在Web应用中尤其普及,逐渐取代了面对面的和书面的事务。

1972年开始运行的全球定位系统(GPS)这一年实现了全球运营能力。

1997

NASA阿姆斯研究中心的Michael Cox和David Ellsworth发表了一篇论述虚拟化的论文,探讨了计算资源无法即时处理的过大数据集的挑战。该论文写道:“我们称这一问题为大数据问题,”这可能是首次提出大数据这一术语。

1998

Carlo Strozzi开发出一个开源关系数据库,并称其为NoSQL。十年后,一场开发NoSQL数据库以处理大型、非结构化数据集的运动开始启动。

谷歌公司诞生。

2001

万维网发明人Tim Berners-Lee提出“语义Web”这一术语,梦想着机器与机器交互“会让在Web上分析所有数据成为可能。”

维基百科发布。

2002

2001年9月11日,纽约遭受恐怖袭击。DARPA开始研制整体情报识别系统,综合了生物识别、语言处理、预测模型和数据库技术,是美国众多情报机构所进行的新型数据采集和分析努力之一。

2003

根据IDC和EMC的研究,电脑和其他数据系统在这一年中所产生的数字信息量超过了2003年之前历史上全人类所产生的信息总量。

2005

Apache Hadoop项目这一年诞生,它注定要成为治理大数据的基础。

美国国家科学基金会建议为“足够多的高质量数据科学家”创建职业路径,这些科学家主要处理日益增长的数字信息集合。

2008

连接到互联网上的设备数量超过了世界人口总量。

2011

IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目“Jeopardy”上击败两名人类选手而夺冠。

用于NoSQL数据库的查询语言UnQL开始研发。

2012

奥巴马政府发布大数据研发倡议,该倡议涉及美国政府的六个部门的84项计划。美国国家基金会同时发布了《推进大数据科学和工程的核心方法及技术》。

IDC和EMC估计,2012年将产生2.8ZB的数据,但其中只有3%能够当做大数据来使用,能分析的数据量则更少。该报告预计,到2020年的数字世界将拥有40ZB的容量,是全世界所有海滩全部沙粒数的57倍!