HBTC2012:VMware眼中的云框架

由中国计算机学会主办、CCF大数据专家委员会承办HBTC2012Hadoop与大数据技术大会于11月30日在北京举行。本届大会以大数据共享与开放技术为主题,设置了Hadoop生态系统、大数据行业应用、大数据共享平台与应用以及大数据的技术挑战和发展趋势等五个分论坛。大会就大数据技术生态系统的现状和发展趋势进行探讨,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。

大会第一天的下午来自Vmware的罗纳德先生发表了精彩的演讲,谈及了Vmware对大数据和云的认识。

首先他认为 今天大数据和云结合在一起了,而且这是非常合理的一个结合。

自己的电脑和一些存储,以及一些计算的能够或者是内存或者是硬盘存储和网络。将所有的电脑放到一起,尤其是在一个典型的大数据的群集里面,你需要考虑所有的矢量,把所有矢量的资源放在一起需要有一个架构,这就是所谓的云框架。

Hadoop的数据是非常重要的一点。一般来说有三种方法来应对处理和存储,一种方法是实时的分析工具,同时还有一些数据的操作性的工作。也就是说得到了什么到底怎么做?同时还需要进行对数据的操作,这需要处理多种不同的数据得到一个结果,这就是Hadoop在早期的时候超越其他工具的地方。而且我们必须要处理数据,用这个数据来在培训过程中引用到,或者引用来进行一些可视化,帮助来使用一些。可能在大数据的时代我们确实有这个机会来把一些工作的负担和一些传统的数据处理从传感器这方面进行转换,不仅仅只是在实时地互动的方式来处理,我们必须进行可视化的工作,这就是VMware工作的背景。

有基础设施的层面还有云的基础设施,中间的这层叫数据层,我们在这里有很多的分布式的文件的系统还有很多的大数据存在在里面,而且还会有一些彼此缠绕在一起的数据,而且还有计算机层。在左侧可以有实时处理数据的能力。这些都是Hadoop、英特尔等范围以内的。基础结构方面可以有多个不同的部分,包括本地的和一些共享的存储的能力。还有一些分布式的管理的系统。所以我们可以看到这里有多个不同的管理。如果我们来看一下,这种实时的虚拟的基础设施的架构首先可以看到有人谈到了美国的应用我们对数据库进行了安装,我们可以看到有很多不同的集群建立起来了,它是遍布整个的公司和组织的。有时候可以用,有时候并不是可以充分地利用。所以它们需要更多的空间,因为他们要存储更多的数据,也是因为数据计算的能力在增加。所以资源并没有完全地用到,因此虚拟的架构是非常重要的。

一个单一的性能环境可能是运行的是NPP的运营或者是Hadoop的集群或者是其他的集群,而且它还能够将存储和计算的能力独立进行。其中一个集群运行得比其他的更长更热,就可以进行应用,这是云的基础架构能够,特别是在私有的运行情况下可以运行得更好。而且在某一个APP的环境Hadoop是一个独立的集群,也许它管理起来并不是那么容易,虽然效率并不是很高,但它是独立运行的,把它放在一起可以看到是单一数据的分享。但是如果彼此在一起运行的话是做得很好的,首先如果我做的是很复杂的计算我不希望有人进入我只是希望有人做这个动作,控制这个过程,避免产生一些噪音和杂音,如果问一个问题可能后面的人要等很久,这样要用到不同的集群,这样要把整个的虚拟化应用起来可以帮助我们解决很好的问题。

最重要的是安全的优化,要运行各种不同的运行,但这并不意味着我们有一些私有的信息,当然我们还要遵守信息的隐秘性,如果客户有要求的话。如果我们在虚拟的系统中可能也有这样的问题,所以这也是在虚拟环境中解决的问题,这样的一些元素和问题包括了其可视化,这是可以帮助我们解决的,但确实也需要从资源的分享中获得更好的益处。而且我们也看到了很多的数据,把它放到了云的计算中,比如说基础设施可能是同一个基础架构对资源进行分享。但在分享存储这方面可以看到有一些大数据都可以有一些优势,但问题并不是完全需要这样的。资源的分享、存储的分享确实是可以的,你可以用SAN或者是NAS进行分享,你可以对集群进行评论的工作,还可以帮助你不断地改善虚拟的架构。但是,并不是完全地需要这么做,还可以用本地的存储,可以用本地的磁盘。

对Hadoop来说它可以给你更多的可扩展的带宽,所以有很重要的选项。最重要的是把资源进行简化,并不把它对某种方式进行锁定才能进行这种工作。

在这个行程中我们也看到了一些合作的人,如何对他们进行可视化,所以我们确实非常相信计算中有很多大数据的应用。第一,能够运行简化,可以帮助我们做很好的准备。也可以帮助我们很好地进行生命周期的管理,如果是一个生命周期的管理可以很好地对其进行管理,而且可以很好地确定把一个集群进行整合,而且需要进行一些重新配置,所以并不一定是有虚拟的需求,它们都是虚拟的。因此这是一个集合资源的过程,运行起来更简单。第二,可运行性、可用性很高。这样的话可以运行一些基础设施进行优化,而且我们可以看到在技术这方面虚拟技术可以帮助你达到很高的容忍度,而且并不需要人类的处理。放在潜在的平台中,所以能够用到这样的系统。用现有的Hadoop的版本把它放在其他的版本之上,我并不需要对它进行改变,只需要对潜在的架构进行运行就可以了。这也是很高的可是度的优势。另外计算中很重要的概念是,一个多功能性。

在中国的新年期间我们会做更多的工作,而且可以同时做更多的工作,不一定是我在用还有其他的人在用,可以很弹性地把能力进行收缩或者是增大。而且我们可以通过现有的数据知道这里有很多VMDisk,可以把资源集成在云资源中,而且可以把Hadoop的能力运行多个集群,这种能力是非常重要的一个因素,也是为什么我们这么多的投资于Hadoop的开发之中的原因。再谈一些经验,我们用了典型的Hadoop的25节点的集群,有20个磁盘,这在一个Hadoop的集群中是很典型的应用,它是非常经典的Hadoop的应用。我们还测量了有多长的时间,我们运行了这样的一些系统,而且进行了测试。这样一个虚拟的点。我们在同样的系统中消耗同样的资源来运行的。

可能它要超过一点,那么看一下它有不同的特点,例如说它是虚拟的,好像是24个机器,但实际上可能会有48个是同样的配置吗?我们再对它进行测试,它没有改变任何的东西为什么会这样?为什么会得到的结果更好呢?但发生的事情是对资源的安排,有时候会把情况变得更好,更好的简化和可视化。它没有改变任何一行Hadoop的代码,这是第一个需要看到的问题。

VMware把所有的暂时的文件放在本地的磁盘中,之后在输出这方面放在了分享磁盘上,所以极大地增加了工作的效率,同时也可以很好的支持可扩展的带宽,同时也可以把你的成本控制在一个很合理的水平上,使你的股东可以接受,所以你并不一定选择一个,但可以从这方面获益帮助提高运行的效率。