Infortrend李剑:大数据环境 重新审视基础存储

2014年12月2日DOIT编辑北京报道:2014(第十届)中国存储峰会今天在北京召开,大会以“掌控数据经济,重塑商业价值”为主题,诠释在IT走向DT时代下,如何通过数据重塑商业价值。大会共邀请了 16位顶尖第三方嘉宾,数十位专家,带来了35场前瞻性演讲+2场圆桌讨论,并首次推出硅谷创始人访谈和存储夜宴活动!

在当天下午的大数据分论坛上,来自Infortrend的中国区产品经理李剑带领我们一同在《大数据环境 重新审视基础存储》。

以下是演讲实录:

李剑:大家好,我是来自于Infortrend的,今天我们来参加大数据这个论坛。接到这个主题蛮差异,一个做传统存储的厂商跟大数据到底有什么可以结合的地方呢?其实我想了半天,想到一个观点,现在的数据类型在几年前和在当下为什么会有不一样的地方,还是应用方式和应用习惯的改变。

大数据到底会给我们带来哪些不一样的地方?我们在一个大数据的环境当中,以人为本是一定的,所以以人为本是第一条。不管什么技术,回到十几年前的IDC1.0和互联网时代,讲时间和金钱,其实率的问题,效率的问题有时候可以通过控制成本,买一些所谓的性能比较高,跑出来效果也比较好的设备。

接下来会看到,最顶层我们所说放数据的设备,数据进去,如果你不用这个数据,当然也是没有价值,当你开始用了,就要建立各种各样分析的模型。现在的建模到了大数据以后,会发现纬度会变成几纬空间。以前我们会用比较固定化的数据库的模型。

举个例子,淘宝从去年11月11号第一次“双十一”用一个卖出多少件内衣,连起来有多长,绕地球多少圈,卖东西的数量,加上数据对应的单品自身的尺寸,尺寸又分长宽高,他又取了长度或者宽度这一条,再叠加起来算距离,再跟地球赤道的长度做对比。这个对比过程显示出来很快,多少件,加在一起有多长。对于存储系统,处理起来很麻烦,包括上层的数据库建模。

没有大数据的时候,我之一直讲企业级,企业级和大数据有一个本质的区别,企业级不是讲安全,而是讲稳定。解决稳定以后,我们才想说怎么用这个设备,我们用在哪里?用在数据库,就是讲IOPS,甚至以前更小的512Byte。如果用在一些大带宽的备份,流媒体行业,这两年高清和4K带来的发展,会讲带宽。所以,以前的存储我们在考量的时候,基本上只是想什么样的应用找什么样的存储。存储跑开就两类,IOPS跑的比较高,贷款比较好的。有时候我们把带宽比较高的产品定位称专用存储,但是很少有数据库专用的,所有跑的这些系统,最后是一个数据库,一定要查询,一定要索引,一定要做数据的连接。

所以,原来的存储在企业级本身这个场景下,我们只考虑满足单一的应用需求就好了,我今天是一个Oracle,做完了一个ERP的系统带两万员工,在上面做一些查询的业务,这就是一个很单纯的业务。像电视台,就只是说,我要多少工作站,要跑高清,要多大的带宽。分开来,这样的存储系统,基本上你会花固定的费用支撑你单一的应用而已,所以可以说两面都是独立的。

传统厂商一直以来也是这样做事情,因为这是一个需求,但是到大数据你发现这个需求变化非常快。以淘宝这个例子,查他卖了多少件,这是一个很大的数据的索引。但是,如果查每一个单品的尺寸,这个尺寸不一样,每一个单品的尺寸都不一样,长宽高,胖瘦都不一样,再做对比,就会变成一个宽向纬度的发展,这个设备在大数据环境当中一定要有力度和纬度,既要有小数据快的应用需求在,也要有大数据并发的应用在。所以,现在的存储系统不是一个混合的状态,很难满足大数据自身对数据发展的改变。

现在的存储可以发现,这是混合,如果一个系统还想说,它有很高的IOPS,它只是有这个东西,它不适合当下这个环境当中。我有的客户用了VDI,说要算扫描病毒的时间,可是VDI完成之后,说3000个VDI做应用效果的分析,一个数据挖掘,这么多员工每天在干什么,他喜欢用什么样的软件,它的工作方式,每一天的业务流程,它分析的时候又不是IOPS的问题,会变成带宽的问题。所以,当下传统系统本身要进行转变,转变成为混合型的状态,原来只是单独的应用,现在变成混合的状态。

传统厂商能做的事,我们看一下它的硬盘,所有数据,不管技术发展到哪一天,SSD未来可能会干掉,但是也是没有关系,但是还是会存在于介质上。有了介质以后,我们会通过一个技术把这些介质绑在一起,这是老技术,叫RAID,RAID是数学家性的,传统厂商在上面做了一些算法上的变形。现在没有存储厂商在做磁盘,都是一两家大的磁盘厂商在做。你把磁盘拥有了,拥有RAID技术,这还没有处理器,所以,你有各种各样的模块,前端你需要一些列入模块,FC的也好,FCOE的也好,以后可能还会出现FEC各种各样的链路,因为链路厂商也在发展。你会发现,整个存储硬件得买,我们买回去的存储是个硬件,你会发现存储硬件所有东西都不能存储厂商做的,就连RAID都是别人的算法他们修改了一次。你把这些东西放在一起,做更高度的兼容性测试,通常我们是做这样一件事。以前认为只是这样而已,这两年存储厂商有了硬件放软件,各种各样的软件,这些概念也很火热。这些软件本身也是固定的算法,加入了以后是个功能模块。如果仅此而已,这个存储你会发现它没价值,硬件上面是一层功能性的东西,大家都一样。

回到RAID,刚刚讲传统厂商没价值,因为它没做任何事。可是存储有硬件,有软件,下面是一层硬件,下面是一层软件,中间有一层是OS。这层OS可以帮我们做一件事情,这件事情真的要平衡时间和效率,时间和投入,效率和投入的问题。怎么平衡它呢?我们这里看到,八块硬盘跑出来的IOPS有多少,带宽有多少,很多这方面的爱好者可以在百度找到很多的方法,算出来基本上只是恒定的。比如一万转的产品,IOPS大概150。如果算带宽,带宽理论值,各种都有,但是你放在系统上跑,你会发现不同的厂家跑出去的结果是不一样的。所有厂商都在做软件,都在做OS。

Infortrend有自己的OS,现在我们OS的方向是在硬盘上,尽量把硬盘厂商给我们硬盘的理论值,比如300,到最后可能只有70,我们尽量把它的拉高,让它跑出来的性能尽量高。第二、处理器,也是非常垄断的行业,当然也感谢这样大的厂商给我们带来更多和更低主屏的产品,在奔腾时代,酷睿刚出来的时候,我们追求高频,现在追求性能一定要高,这样在控制器稳定性才会高,最基本的散热。硬盘性能更高,只能靠OS来做。Infortrend的OS,这是我们的一台机器,我们跑出来的值是一万,如果真正用一万除以24很吓人,用2000兆的带宽除24,每个盘大概100这样。如果说这样的数字是以前你见过的,我敢说你肯定没有见过。我们去年重新写了这个OS,为了怎么样在一个存储器,让IOPS和带宽这两个应用同时间都可以发挥出来,当然还有一个中间桥可以做到。

我们现在的产品,我们一开始六个系列,但是对于大数据的客户我们提供了基础存储的系列,就是DS系列。IOPS不一样,处理器就不一样,当然它的成本也不一样。你发现我们产品线的定位非常一致,左边的带宽都是一样,只是IOPS不一样,IOPS值和MBPS值加在一起,在这个产品我们把它做成一样。最容易让你部署的一定是价格问题,价格是唯一的考量点。1.7G双核SoC,可以跑380万,可以跑550万的IOPS。换成现在的产品线,这是我们DS这条线,首先它要有自己混合型的OS,我说的OS就是一定要有IOPS和带宽。其他的都不重要,可以热插拔,这些硬件仅仅是在制造能力的不同而已,这跟工厂的效果是一样的。有了这些技术,你在前端购置不同的架构,你想选择FC没关系我们有,跟FC的芯片厂商,FC我们都可以做。最新的12G的SAS,这个产品,只要说有,我们马上可以做,这都不是难题。

有了这些东西以后,最核心的东西不能动,上面两层可移动,因为这两层是一直在发展的。硬件部分,如果有新的硬件的架构方式直接采用,中间核心的这一块OS不能动,时刻要为一颗一颗的介质去读。在这个基础之上,再想弄这些软件功能,你才会体会到这些功能本身会有哪些不一样。如果没有刚刚我介绍的技术,你会发现这些功能其实没有什么差别。

讲一个最真实的需求,如果一个客户同时需要这两个需求,因为在大数据的环境发现这种需求真的会存在,他不会谈出提出就要多少IOPS,就要多少到带宽,我同事要IOPS也同样要带宽,这两个怎么算。我们的解决方案,需要一个桥,只有用一台两用的设备,装两颗SSD,如果不插7200转的硬盘,它本身也可以跑三万的IOPS。要7200万的盘是撑容量,你的存储还是基于数据库,基于虚拟机的IOPS的存储。但是,这20颗盘,一颗7200万,大概能跑70到500兆。所以,你如果基于两个介质之间,选择存储的时候,当下只要碰到大数据的应用,其实不管是不是大数据,要是混合的当中,要同时考虑这两个应用怎么把它拉在一起,如果需要第三方的介质去拉,跟存储也没关。Infortrend是一家存储厂商,存储自己要改变的东西在这个地方。

这是我们今年真实的案例的部署,这个案例在上海。这个客户在300VM,3000VDI之上又做了虚拟桌面的应用分析,这个分析最终就是对压裂的一个调整。当时应用测试的厂商非常多,各家各户都在里面做。提到一个应用的需求,就是需要分层,都是SAS结构,测试到最后,如果没有分层,光配套这套技术也是没有用。如果本身存储没有把单颗硬盘,单颗SSD的能力结合,这些功能没有办法结合这种。所以,我们有时候看一些文章和报道,它喜欢单纯的讲一个功能会带来哪些改变?其实这些功能应该放在哪里?因为功能是软件,软件要放在OS上,OS要在硬件上跑,OS到底怎么选择。这套设备本身也很夸张,需求是300VM+3000VDI,配置是DS 3000T,48×SSD,540×4TB SAS,一个医药企业,只是一部分员工在这个东西。当部署完的时候我们吓一跳,怎么会真的是这样的部署。我们建议它不要这样做,因为重量确实很重。每一台设备,140公斤以上。但是他觉得客户没有机房,不让他新建,只有在自己的机房改进,改进下来就是这样的,省了空间,又满足了应用,同时又真正的应用到AutoStorage Tiering。这样的客户在中国很多,3000个员工很多,随便一个公司都十几万人,一个分公司可能几万人,如果部署3000VDI,又带300VM,有一些技术会牺牲到容量空间的问题。

Infortrend是一家存储厂商,但是所有存储厂商真正做的事情是软件,是OS,每一个存储厂商自己都是操作系统的专家。Infortrend现在OS的大小尺寸是11兆,是没有占到任何一个盘的任何1KB的空间,这11兆的系统就是足够的精简到可以只去管理IO,每一颗盘,这样才可以把每一个厂商,我说介质厂商,硬盘厂商,他们把盘送给我们,怎么让它盘跑的不一样。这是我们在做的事情,谢谢大家!