数据的宣言:大数据是一场大变革

大数据不仅是一种数据仓库技术或BI(商业智能)的升级版,同时也是一场革命。大数据的宣言:无需恐惧毋庸置疑,大数据是一场大变革。

第一次世界技术革命时,我们正在考虑的不是如何减少数据数量和如何把它归档,而是如何收集更多的数据并对其进行分析。那时,我们并不怕受到受到数据量的威胁,而是在寻找额外的数据,以帮助我们发展业务,进一步了解我们的政府和社会。

后来,磁盘和存储的低成本与价格下降推动了商品服务器集群的分散式处理趋势。虽然我们收集、处理和分析大数据已经有相当长的一段时间了,但直到如今,我们所使用的方法依然是低效率,并缺乏经济性的。但这场大变革中有着我们一直想知道但以前又不曾涉及的数据,所以,现在的我们无需恐惧。

大数据的定义我对大数据的基本定义是高科技领域内非常精细的事件驱动数据的采集和分析。这涉及到互联网的派生数据,这些派生数据的规模远远超出了网站的分析能力。它还与传感器数据相关,而对于大部分传感器数据我们直到最近才丢弃。现在,那些有很大价值的数据,将更有利于我们深入了解业务运转和与客户的互动。对我来说,这才是能否被称为大数据的标准。

但是,事件驱动数据集容量实在是太大了,以致于交易数据库系统不能有效地运转。大数据,如Hadoop、复杂事件处理(CEP)和大规模并行处理(MPP)系统是专为这种较大的工作负荷量开发出来的。未来,交易系统将得到改进,但它们也永远有一个障碍,即它们并没有被设计和应用。

2012年:大数据年代?

大数据正在成为主流,它从科学和高科技公司的专用技术转变为企业IT应用程序的专用技术。大数据作为IT工具的主流,对IT领域有重大的影响,其可用性和易安装标准是高于科学与高科技公司界对大数据的要求的。这就是为什么我们会看到像微软这样的公司,可以通过Web浏览器来实现利用云基础大数据技术,从而进军游戏行业。

为了更好的使大数据与企业相融合,我们应该实现技术的细化和降低经营成本。眼下,很多大数据工具都是粗糙的或昂贵的,或者是需要能够实施操作的高度专业化的技术人员的辅助。不过,这种情况正在逐渐改变,而且,它从侧面也证明了大数据革命的光明前景。

Spreadmarts不是大数据,但他们也有自己的作用大数据和我们习惯使用的电子表格模型和数量运算有什么不同吗?电子表格技术员们一直在做分析,但肯定不是大数据,因为Excel不符合前面对大数据集的定义。直到2007年,Excel才可以处理超过有16,384行的电子表格。但是,它还是不能处理较大的业务数据量,这方面它比大数据逊色许多。

当然,大数据分析的结果可以利用Excel来进一步计算和探讨。事实上,微软已经开发了一个与Excel连接的附件,与Hadoop连接的数据仓库接口,还有象征性的大数据技术。大数据工作就像经过以Excel为基础的分析和粗糙的编辑之后的后期制作。

从另一方面上看,BI(商务智能)和DW(数据仓库)是相辅相成的,这对大数据而言是一件好事。大数据让落后的、传统的技术,为涵盖比以前更广的操作和交互范围的数据集提供见解。我们可以在全新的环境下继续使用熟悉的工具,从而实现对看似不可能或随意的事情的访问。

自然语言处理和大数据关于用Hadoop开展自然语言处理(NLP)的解决方案已经产生了。该解决方案涉及到了Python编程语言和一套称为 NTLK(自然语言工具包)。另一个例子是苹果的SIRI技术在iPhone上的应用。用户只需与SIRI进行对话,就能从一个庞大的领域专家团队那里得到答案。有趣的是,大数据技术将有助于改善自然语言技术,例如,对更大数量的书面作品进行处理和对算法的理解。因此,大数据将变得更容易使用。

大数据专家和开发商:他们可以和平相处吗?

我们并不需要问这种“To be Or Not to be”的问题。正如开发人员和数据库专家将被继续鼓励开发软件和对软件生产与消费的数据进行专门的采集与分析一样,这两者是相辅相成的。

但我认为,开发能力强的人才的确是一项宝贵的资产。因为大多数高技术专业都会对本专业人才进行自我筛选。而且,我一直把它当做了一个趋势,观察整个行业的发展。在该行业中,很少有人逆势而行,因此对人才的需求是很大的。

联邦政府和大数据?

最近,宣布将在大数据方面投资2亿美元的美国联邦政府收到大量的保证金,它虽然具有一定的象征意义,但我觉得它也有缺陷。在大数据领域,2亿美元的 投资实际上还是很少的,尤其是当众多的联邦机构存在分歧的时候。但是,当政府谈到其工作中大数据治理及大数据对社会的重要性时,它会告诉你大数据技术的力 量和影响。美国联邦政府收集大量的数据,奥巴马政府也承认大数据有很大的潜在价值。

大数据和BI(商业智能)之间是相互独立的,也是相互联系的让我们再次回到本文开头,大数据是不是BI的下一代呢?大数据是它自己的子类,并且可能 会一直如此。但它却和BI、数据仓库之类是相同的产业链的一部分,而这些类别存在的时间比他们原本应该存在的时间要短,这是由于它们分属于完全不同的领 域。

因为大数据和BI是数据库管理员、BI模型师和数据挖掘专家研究了超过十年的东西。而有些人对这两个方面都有研究,有些则只专攻一个方面。它们不是 相互排斥的,也不是一方面是另一方面的新表现。所以,BI会与大数据相结合,数据专业技术、产品和结构,与其他以数据为重点的高新技术专业有着密切的联 系。这种关系贯穿于整个高科技产业和计算机科学,而且它们各自的特色仍然是合法的、有益的和真实的。

大数据留给了我们什么?

在辩论中,我们讨论了一些情况,如大数据将会冲击哪些已建立的数据库、数据仓库、BI和分析技术?大数据市场的确很广阔,这可能使大数据的进步更加迅速,但如果继续使用已有的工具,我们怎么才能把“数据”变成“大数据”呢?

然而,大数据革命并不是通过这些已有的工具实现的,它的发生是远离这些工具。我们采集了大量的数据,这些数据的大部分都是非结构化的。我们还使用廉 价的服务器和磁盘,然后把筛选过的数据放置到传统系统中。由于存储太昂贵,处理速度太慢,宽带太稀少,我们重新使用那些被丢掉过的数据。现在,我们正在以 熟悉的方式来处理这些数据。这是史无前例的,同时也是直观的。