跟上大数据:两种架构的IT故事

对于IT企业来说,围绕大数据的问题,仍然存在着很大的挑战,具体而言,是对大数据的分析。这些部门面临着实施必要的基础设施,并利用信息的艰巨任务。满足具体计算、网络和存储架构的需要,使企业受益。例如,如何每天从计数惊人的新的数据中摄取30TB的数据(相当于1,740部高清质量的电影),对其进行分析、存储,可能的话还需要重新进行分析和存档?如果你计算一下,这样下来,一年的数据量大约是10PB,但即使这样,这一数字也会很快变得微不足道,因为我们将很快进入到艾可萨字节时代(Exabyteera)——每年1,000PB,或更多。

尽管随着技术的发展,围绕企业如何适当地受益于大数据,以及从大数据中获得相当的洞察力仍然存在着一些问题。企业可以从两种截然不同的路径执行“大数据农场”计划。如何选择已经成为一个很重要的IT难题。

“大数据农场”计划,是对数据进行种植、培育、除草、收割并最终消费,或者存储起来以备日后之需。但也有两种不同类型的农场计划:一种使用许多不同的服务器来保存数据,通常被称为直接连接,另一种使用扩展设计,所有数据将被安置在一个单一的实体,如文件系统。

首席技术官和首席信息官都知道在小规模企业,使用服务器磁盘往往是最具成本效益和简单的。第一、几百服务器通常对于IT工作人员来说不构成重大问题。然而,如果需要成千上万台的服务器来处理数据,存储变得非常难以管理,特别是从人工的角度。首席信息官必须不断雇佣更多的员工,培养并设法留住他们。

“数据存储在服务器”的方法具有自限性,因为潜在必须给定一台服务器具有访问另一台服务器进行数据分析的权限。换句话说,这是架构的组合问题。它类似于一千人参加一个电话会议,所有人试图在同一时间发言。这是常见的大型计算农场之间的服务器沟通的一个严重的瓶颈,从而减少了服务器进行分析的能力。随着数据农场规模的扩大,毕竟,更多的计算,可以适用于更大的数据集,更可以从中学习,并从中提取价值。直接存储模式达到极限的能力,有效地处理大数据。

相比之下,使用扩展存储模型的一个单一的文件,直接提供的数据计算服务器并行消除瓶颈。服务器现在可以自由地进行数据分析,而数据移动引擎。无论数据规模如何,管理扩展很简单,因为只有一个实体进行管理。现在可以实现规模效率。今天,数十PB的数据可以由一个单一的工作人员来管理。更重要的是,这是一个数据仓库。其尺寸和性能可扩展,以配合新的数据传入来源和业务需要,分析和存储数据。

但大数据规模系统的最重要的方面是服务器自己来移动数据,这节约了需要进行拆除的宝贵。时间是大数据的最终约束。数据在服务器之间传输,有助于方便一台服务器上进行分析工作,但所需要的数据则是驻留在另一台服务器中,是善意的IT项目的大数据的杀手。时间不仅仅意味着金钱,其也是一种竞争优势。向外扩展的架构,尤其是那些随着时间的推移可以定位在不同的媒体,无需外部运动,意味着数据迁移结束。数据被摄入、分析、短期和长期存储在单一的实体中。

大数据可以被视为不可抗拒的力量之间的冲突,无所不在的和越来越多的新数据,以及企业的不动产。随着时间的推移,它们每一天都在增加,而且不会消失!所以针对这一点,企业必须认识到从甲地到乙地移动数据,仅仅定位的分析是失败的。例如,您不需要传输1PB的数据从服务器到数据计算农场要花费多少时间。即使是以10千兆字节每秒的速度,以今天的标准这已经是非常快的了,它也需要100秒来移动一个字节,也就是不超过2分钟的时间。这是没有问题的。但传输 1PB的数据它。则需要1000倍的时间,即100000秒(或27小时)。如果你的IT基础设施只能每秒传输1千兆字节的数据,这会花费11天的时间。二者仅仅还只是一PB的数据,更多的数据很快增长为大数据。

底线是这样的:一旦提取,应该不会有大数据移动。为什么要浪费时间在服务器之前传输数据呢?分析工作必须能够直接读取数据,直接进行分析并得出结果,而不必在服务器之间移动文件。这就是为什么这是最佳方法,这才能跟上大数据的步伐。如果你一想到大数据,您可以这样考虑:这是所有关于规模,和由大数据构成的扩展架构比赛的挑战。