大数据时代到来 分布式计算为企业助阵

现在“大数据”业务已经得到大多数技术人员和企业决策者的认同。“大数据”中的价值也被很多企业决策者意识到。但对于大多数企业来说,真正实现其中的价值还难以做到。这时候IT就可以帮助决策者在储存的海量信息中挖掘出需要的信息,并且通过分析,从而发现重要的趋势信息。换句话讲,IT已经成为“大数据”发挥作用的催化剂。

“大数据”在商业活动中扮演着另外一个角色:越来越多的大企业面临对大量结构数据和非结构数据进行维护的问题,这些数据可能来自资料库中员工对于交易信息的报告,也可能是供应商的日常供货信息–总之这些都是政府要求企业在日常运营中需要保留的数据。

大数据的概念同我们比较熟悉海量数据有所区别,它可以用三个V来总结,即Variety、Volume和Velocity(多样性、数量、速度)。不难理 解,无论目前结构化数据还是非结构化数据,它们在深度与广度上都飞速地增长着,企业能否有效管理并挖掘利用这些数据将决定信息化建设的发展走势。除此之 外,技术提供商也纷纷将目光瞄准大数据领域,IBM、SAP、Teradata等数据仓库及商业智能厂商都在积极地推广各自的理念和产品。

大数据业务适用于所有规模的企业。大数据业务并不是只与企业规模有关,还关乎企业的经营情况,但其与企业数据的设置情况无关。该业务与即时分析有关。

对于大数据分析业务,小企业还有另外的途径来实现,这个途径就是云技术。针对大数据业务提供的云服务异军突起,为迅速和高效进行数据分析提供必要的平台和工具。然而,小企业真的需要大数据业务吗?回答是肯定的。其实,所有的企业都需要大数据业务,不管其是否已经认识到。例如,大多数在线企业在其 记录文件和点击记录中收集大量数据信息。对于没有类似数据流的企业来说,存储千兆字节而不是兆兆字节,大数据业务能够使其深入了解公共信息数据资源这座宝 藏。

随着成本的下降,企业渐渐想出新的办法来整合数据,大数据分析业务会显得越来越平常,它还能指引着企业怎么由小做起,发展壮大。看看谷歌,还有雅虎和Fascebook,它们都曾经是名不见经传的小公司,但是他们都有效利地用了自身的数据资源,从中得出了对成长产生深远影响的见解。许多大数据业务的基础正是来自由这些企业的发展得出的启示,这绝非偶然。如今,这些启示已经能够通过Hadoop和其他一些供企业使用的软件工具–正像你的企业所使用的软件工具广泛获得。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

后来有了分布式计算系统(MapReduce),软件开发者可以创造能够通过分散群机和独立存在的计算机并行加工处理海量的非结构型数据的程序。分布式计算系统最重要的优势就是容错性强,该优势靠对分散群中的每个节点进行控制来实现,在这种控制下,每个节点都要阶段性地将一定范围的工作 状态实时加以反馈。如果某一节点反馈相关信息的时间超过预期时间,一个主网点就会对这个节点的情况进行记录,并将该节点应该进行的工作重新指定给另外的节点去做。