西瓜哥:大数据时代下的高端存储架构演变

存储在线 12月2日北京报道:2014(第 十届)中国存储峰会今天在北京召开,大会以“掌控数据经济,重塑商业价值”为主题,诠释在IT走向DT时代下,如何通过数据重塑商业价值。大会共邀请了 16位顶尖第三方嘉宾,数十位专家,带来了35场前瞻性演讲+2场圆桌讨论,并首次推出硅谷创始人访谈和存储夜宴活动!

在大数据分论坛,知名微信自媒体作者西瓜哥,带来了《大数据时代下的高端存储架构演变》专题演讲,以下是现场演讲内容实录:

首先,感谢DOIT给这个机会,让自媒体也可以发出自己的声音了。因为自媒体的比较少,我今天讲的内容还是聚焦我研究的高端存储架构。大家可能会想到高端存 储跟大数据好像没有特别多的关系。我今天讲的可能是比较窄的大数据。首先,这是我个人的介绍,我是有一个自己的高端存储个人的公众号,每天晚上会写写我今 天学了什么。还有一个传送门网站,它也收录了我所有的历史文摘。大家从百度上搜索存储西瓜哥,在DOIT上搜索西瓜哥也能搜到我的文章。大家如果有什么问 题,会后通过微信平台,都可以和我沟通。

我讲一下我的观点,我想讲高端存储架构,但是这是大数据的论坛,所以要靠点题。其实也不能说高端存储和大数据没有关系,其实大数据业务是一个业务的视角,从 用户角度看,大数据解决什么问题。一般这个圈子有两种生态圈,一种是基于Hadhoop这种开源的工具,技术,大数据的存储,包括它的分析、工具。但是, 企业里面很多人用的也是比较成熟的,比如Oracle、SAP。这么分,其实在商用生态圈,高端存储其实还是企业里面比较明显的选择。我跟公安客户交流 过,像公安里面很多大数据的业务。高端存储并不完全是分布式的架构。而且现在大数据这种业务在很多传统企业,比如银行的信用信息分析,很多大数据的结果以 后马上出结果,所以它的业务非常关键,对可靠性,对管理业务有比较高的要求。这块也是高端存储的长项。

总的来说,看一下大数据对存储的需求,首先,数据量越来越大,可能一般的数据要达到PB级的量,美国那边的一些调查,一般企业管理的数据量,一般1T左右。 第二、有良好的性能,因为这是关键业务,需要实时分析,需要有很好的带宽,这是它对存储的诉求。用得起,这是开源打存储最重要的地方。管理问题,数据量变 大了,传统的管理方法已经不能进行管理,里面有很好的管理方式,你存进去,可能管理的更加复杂。大数据大量是非结构化,或者半结构化的数据,你存储能不能 支持更多的结构。

讲一下高端存储,我个人对高端存储怎么理解,比如IDC的报告会写高端存储,比如2014年Q1下降了22%,市场不好,份额在下降,性价比不好。这块告诉你 什么意思?它是广义的高端存储。在IDC的眼里是按价钱分的,他说什么叫高端?技术上很难定义,技术发展更快,原来说这要多功能架构,才能 定义高端。现在很难定义高端,IDC说拿钱来说。比如他分十个档次,一个存储的朋友售价。也就是平均售价是比较贵的,它认为是高端,就是十万美金以上。

讲一下Gartner的观点,Gartner是走技术派,用一些具体的参数定义高端存储的范围。Gartner3月7号发布了最新的高端存储的研究报告,其 实它最新的版本已经发布了,跟这个差不多,它刷新了一下,排名基本变化不大。他认为高端存储从几个技术指标去理解。一个是单部件失效对主题不可见。第二个 如果是你这个单部件失效,存储有什么部件坏了,对主机性能可能少于25%。也就是它想象中,应该失控一下这个架构。如果大修的时候,允许你有一半的性能损 失。还有下面细的一些条款,比如支持负载均衡,远程复制,这些其实不是非常本质的区别。他认为这样的存储,它的成本是在25万美金起,这是Gartner 的定义。

Gartner的定义里面,还对高端存储进行了一个打分,对目前这个市场他认为符合他定义的高端存储进行打分。他分了8个功能向,包括管理、可靠性、性能、复制、扩展 性、生态系统、多租户和安全、还有存储的效能等。上面有六个应用,有五大场景,每个场景对8个功能向的比重是不一样的。我们看到它比较看中的几个指标是管 理性和性能,还有快照复制,这是Gartner的分析师在这个场景下比较看中高端存储的特性。

HDS对所有的产品进行打分,他认为这个市场有12个产品符合它的标准。通过分析这些排名,我们可以看到,基本上是国外厂商,国内有一家是华为。第一个是日立的 高端存储及第二个也是日立的,第三个是惠普的。如果看总的排名是这个,不止分析这个场景,把所有这些结合起来。其实Gartner还对存储厂商市场的能力 做了评估,前面评分主要针对技术水平和产品的技术能力,下面零分主要针对产品的生命力,包括市场的水平,市场的销售,我们看到这个里面得分最高的是 EMC,EMC生态环境比较好,整个销售能力比较强。第二、比较多了,优秀的厂商,包括日立、华为。大概是这样的一个图形。

我个人研究的高端存储主要是画红线的这一块,因为它首先是面向传统的高端存储的市场。第二、在执行报告里面可以抽它的数据拿出来给大家分享。因为有些数据, 它卖两部,卖四部看不出来,因为统计不了那么细,所以我暂时没有列多方面报告里面去。像狭义的高端存储范围里面,我们看到在全球来看,刚才我画红线的高端 存储,中国其实只占4%的市场份额,也就是这个市场,45%以上还是占你们那边,中国这边高端存储市场感觉很多地方会被闪存,软件定义抢掉它的份额,但是 我觉得还会有前进的空间。第二、看一下全球的排名情况。EMC在这块最高有一个份额,41%,第二、IBM五,后面就是日立惠普,华为在比较小的氛围。

中国区的数据,原来HDS是第一,这两年EMC超过HDS。这方面没有什么特别大的变化,有一个比较大的区别就是这里可能看到华为上升的比较快一些。从行业纬度可以看,这个行业主要用在金融里面,第一是电信,第二是政府。到今天金融是最难做的,因为它的要是性比较高。

高端存储我们讲它的历史,它的架构是怎么演变的?特别是对大数据这个架构怎么演变的?我讲到两个人,一个是做大型机的吉恩·阿姆达尔,其实真正把存储做成一 个行业的,应该是摩西·亚奈,他1990年研发了Symmetrix,推向市场,大家知道存储里面也是吸引高端存储。摩西·亚奈离开EMC又做了XIV。 后来被IBM收购,后来他又开创了第三代存储,Infinbox,现在市场上都有他的三个产品。

高端存储的历史,讲一下它架构上的一些变化。1956年发明大机,配套存储,1980年还是IBM用的存储,还是很贵,百万美金起,当时是IBM自己专用的 大硬盘。1988年IBM有一个项目,没有广泛的推向市场,真正推向市场的是就是第四版的摩西·亚奈提出的技术。日立也开发了跟EMC类似的架构存储,这 种架构存储为什么要转型,也是因为影响。当时EMC出来,IBM的销售受到它的影响。其实日立刚开始的时候做的是IBM大型机和存储。从1995年的时 代,三国鼎立阶段开始了。直到1999年,IBM也开始拥抱普通的硬盘。

IBM这个时候里面后的研究还是用它自己的标准。这也是我现在重点要看的发展的东西。2000年的时候日立的产品第一次把交换技术引入,现在很多人认为高端存储 是完美的架构。2002年3Par的出现,3Par被惠普收购。2003年EMC推出DMX系列架构,也取得了市场的成功。2004年DS8000出来, 这是IBM经典的架构。2005年摩西·亚奈推出XIV,2007年被IBM收购。2006年整个互通了。2009年EMC推出VMAX,2012年5越 发不VMAX  40K。其他的架构上没有太大的变化。最后,就是2012年华为发布了自己的个人存储,架构比较像EMC的架构,但是它底层的东西有点像虚拟化的架构,同 时它本身交换技术更多学这个东西。因为它是SaaS的后端,跟交换技术用的差不多。所以说它借鉴了前面的一些特点,开发了自己的高端存储。

整个高端存储,这种架构,从总线式,到Crossbar架构,还有2003年高了直连架构,但是后来发现扩展性不是特别好,因为联线密密麻麻,再加一个节 点,不太好扩展。所以,2009年有了虚拟矩阵架构,还是利用交换机。主要有四个特点,这可能跟现在大数据的驱动有一些影响。一个是Scale-out为 的架构,但是你发现数据量现在越来越大,Scale扩展已经不够了,所以必须把Scale的架构加上,增长快比较快。还有全交换的架构,还有 X86,X86架构给客户带来的好处就是成本,性价比,这是大数据里面我们要追求的。松偶合比如它会降低用户的成本,松偶合有什么好处?你看到民的一个架 构,它每个节点有点像一个终端村素,通过低时延把这些高端存储连在一起。

最后讲一下这几个存储厂商,针对大数据时代下做出一些变化。这是跟我们传统的高端存储不太一样。一个是EMC之前发布的产品VMAX3,它可以做到5000 多张硬盘,可以支持16TB的Cash,也就是针对这个云时代,大数据时代,如果不考虑成本的情况系,它远远满足大部分企业的需要,除了互联网企业。所 以,大数据应该也是一个核心的大数据的平台。

为了降低成本,为了降低功耗,为了降低机房的面积,EMC引进Highly  Efficient的设计。第二、讲一下惠普的一些变化。惠普成本的追求上也做的比较好,比如它是业界第一个提供精简配置功能的。也是第二个在重删功能的 厂商。我们大数据以后存在上面,有数据的压缩技术,像成本,单位成本会下降,他也是第一次支持cMLC的厂商。可以配合闪存价值,可以降低整体成本。 IBM  DS8000有快照复制的功能,大家知道在大数据场景下,备份备不完,需要用快照复制的方式管理它的平台。

日立的HDS  VSP  G1000,大数据不仅仅有结构化的数据,非结构化的数据,它要保存这些数据,把NAS做进来,但是做的并不是特别彻底,只是管理界面上融合了,物理上不 是特别融合。看一下INFINIDAT公司开发的InfiniBox,把对象存储,文件存储,Trade存储全都放在一个系统里。

为了拒绝更低的成本,富士通出了一个CD10000,用开源的技术做了一个高端存储,给客户带来比较低的成本,但是企业为什么改用开源,主要是技术没有支 撑,这弥补了技术和成本的概念,这也是未来的方向。我们看到很多开源的存储也会出来,大家都在尝试应对大数据架构的变化。

管理方面是大数据很重要的一个方面的要求,这块IBM做的比较好,特别是XIV,它有底层的架构,比较特别,所以它的管理做的特别好。很多东西通过限制了其他的一些功能,就自动优化了,这是它的一个理念,管理非常简单,特别是公安里面有用这个产品。

华为强调性能,是第一个高端存储里面测SPC-D这么一个值,超过100万的IOPS是用OceanStor测的。富士通也是一个性能,但是它强调的是带 宽。富士通的架构后面搞了一个SAS的连接,任何一个节点可以看到任何一块硬盘,所以富士通的特点有很多SAS。它的带宽的能力比较强。

总结来说,为什么大数据场景下,高端存储它努力争取它自己的地位,因为确实有它对大数据的一些支持。首先,在比较成熟的商业环境下用。第二、能提供企业级别 的支持,买高端存储,服务都是厂商服务的。第三、高端存储在关键业务支撑的声誉是最好的,现在很多大数据的业绩已经是关键业务了,不像一线大数据业务都是 事后分析,现在是适时分析。第四、通过前面的一些变化,性能强大、管理简化。同时,它与时俱进的一些特点,比如X86的架构,Scale-out技术的采 用,包括重删,引到高端存储里面,还有开源技术,把存储Hypervisor,高密、统一存储、集群、cMLC。这样可以跟数据结合的更紧密。我的观点就 是作为一个企业用户,可能高端存储还是在大数据比较强势的选择。谢谢大家!