Infortrend存储课堂 - 大数据环境下重新审视基础存储

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),并称为大数据的“4V”特性。大数据时代是随着信息化普及和数据总量递增后必然的产物。正是由于计算机技术的飞跃发展,使得整个世界各行各业都与数字关联在了一起。例如一个人平常浏览网页所观看过的内容,就可以通过大数据分析来判断这个人的年龄段、喜好、职业范围,甚至是针对这一群体在互联网上推送能够产生价值的内容。

以人为本——是大数据时代的一大特质。这里所讲的“以人为本”是指通过大数据分析,从数据本身挖掘价值,从而达到服务于人的目的。

大数据既然是信息化的产物,本身又是针对数据进行采样、分析,那么就一定要有数据的载体——存储系统。存储系统和大数据的关联又是什么?

首先要先认清存储系统的定义。存储系统不等于磁盘阵列,磁盘阵列是来自于英文的缩写RAID(Redundant Arrays of Independent Disks,RAID)。如果一个设备能够通过固定算法的校验方式提供磁盘冗余保护,那么这个设备就可以称为磁盘阵列,可以是软件形态,也可以是硬件形态。存储系统是构建在磁盘冗余保护之上,具备磁盘阵列的功能,但是存储系统不只是单纯的提供磁盘冗余保护。以虚拟机应用场景举例,外置独立存储可以让虚拟机轻松实现V2V或P2P迁移,实现虚拟机迁移这一应用方式需要的只是外部独立存储,也就是磁盘阵列即可。但是,在部署虚拟机的时候,通常会考虑另外一个问题:后端存储可以承载多少个虚拟机?这个问题就带出了存储系统的定义:存储系统是承载前端应用的设备。也就是说,存储系统要有磁盘阵列的磁盘冗余保护功能,又要能够提供性能来支撑在线应用的正常负荷。

“稳定”加“性能”是考量存储系统的关键。采用RAID保护、冗余部件、CableLess设计等技术都可以加强存储系统的稳定性,而性能到底如何,则是各家各派的“内功”修炼所致。

存储系统的性能,在大数据环境下和以往的企业级环境是不同又相似的。企业级环境下的存储系统性能因素大多只是考虑两方面:IOPS和 Bandwidth。

说到IOPS和Bandwidth两种性能要求, 其实就是结构化数据和非结构化数据之分。结构化数据,从字面上理解就是数据的结构是非常标准的,每一个数据块都是相同尺寸。结构化数据在数据库应用中是最为常见的,考量性能压力的指标是IOPS;非结构化数据的代表是文件、图像、音视频等数据结构不相同、数据块尺寸也不同的数据,考量性能压力的指标是Bandwidth。SSD未被使用之前,在企业级应用环境下,常常堆叠很多HDD来支撑IOPS的应用压力,这也是在企业级存储HDD统治时代花销的TCO最高昂的部分。SSD开始部署之后,通过不同的技术来有效利用SSD的高IOPS,也是为了缓解IOPS应用压力。那么Bandwidth压力问题是不是可以用SSD来解决呢?单颗SSD的IOPS性能是单颗HDD的一百倍,但是单颗SSD的Bandwidth性能却只有单颗HDD的十倍。

回到大数据环境下,我们会发现IOPS的应用和Bandwidth的应用是混合形态。举一个例子来诠释MIX形态的应用:2013年,某电商在双11疯狂之后,就公布了一个数字,1小时内销售女士内衣的总数量为160万件,叠放起来的厚度等于三个珠穆朗玛峰高度。销售数量是二维数组,结构化的数据库模型就可以做查询、统计,而厚度、长度就也不是统一的二维数组,需要单独设计不同的数据库分析、比对模型。所以结构化数据和非结构化数据会同时并存在大数据环境,并且会被同时调用。

既然大数据环境既需要IOPS又需要Bandwidth, 部署两套存储可以吗?答案是否定的。数据要放在一起调用,同时TCO又要合理,两个条件相加后就成了难题。Infortrend作为一家有着二十年以上历史的存储厂商,也经历了不同时代应用类型、数据环境的变革期。大数据环境的到来,对于存储厂商一样也是新的挑战。

存储系统是为了支撑应用,数据在存储系统中进行交换,从而让使用者获得更多的价值。一般的观念会把服务器、交换机等IT设备和存储系统一起划分为硬件设备。Infortrend对存储系统的定义是基于稳定的硬件,再加上高效的软件。首先谈硬件部分,存储系统确实是由不同的硬件部件组成,包括:硬盘、CPU、内存、通道芯片、总线芯片等。这些硬件部件并不是存储厂商研发、生产的,而是由存储厂商做硬件集成,展现的是存储厂商在硬件集成的功力。

硬件部件会随着技术的进步,不断更新换代,例如CPU。不断升级是硬件部件的特质,那么对于存储厂商而言需要做的就是遴选适合的硬件部件。至此,如果从硬件部件规格的角度来审视,会发现存储厂商并没有核心价值,或者说硬件层面的能力并不能反映出存储系统的价值。Infortrend在存储产业过去的二十余年间,测试过、使用过的硬件部件不少于百款,产品的硬件规格也是跟随硬件部件厂商不断提升。在这一漫长的过程中,逐渐掌握了一套遴选硬件的方法和标准——选择合适的硬件部件,同时降低硬件部件的功耗和成本。

从上文的分析可以发现,存储系统的核心价值不是硬件部件。计算机技术发展本身是在定义一些规范,存储系统也是一样——硬件加上操作系统(OS)才可以称作一套完整的系统。存储系统采用的OS和服务器的不同,因为存储系统只需要处理和数据相关的部分,所以并不需要过于综合、复杂的指令。Infortrend早在上世纪九十年代,就独立撰写了一套Infortrend自己的存储OS,早期更多的是处理RAID的效率,至今第八代OS尺寸仅有11MB。Infortrend存储OS完全是独立研发的,其中不少IO处理机制的设计方法获得了专利保护,在中华人民共和国知识产权局拥有80条相关专利,其中大部分是存储系统OS相关。所以,我们认为,存储系统的核心价值是存储OS。

大数据环境下,存储OS要做到怎么样的改变才能更加适合混合形态的应用压力呢?SSD可以解决IOPS,Bandwidth的提升可以依赖HDD吗?Infortrend在第八代OS的设计上,就强调了如何同时在HDD介质上提升IOPS和Bandwidth。

机械硬盘HDD的性能是由马达转速及磁介质密度决定,要提升固有的单颗HDD性能,特别是IOPS性能,需要从缓存命中率着手。Infortrend第八代存储OS已经完全可以同时间提升HDD的IOPS和Bandwidth。也许IOPS还可以交由SSD去解决,但是Bandwidth则需要HDD来解决,毕竟HDD单GB成本要更加合理。

最新的Infortrend EonStor DS家族产品已经全部采用第八代OS。提升单颗HDD的性能,同时又不需要太高的硬件配置,特别是CPU。CPU功率越大,性能越好,可是发热量也会线性提升。在高度集成硬件部件的存储系统中,发热量无疑是整机稳定性的最大隐患。不仅于此,解决发热量还需要配套设计散热,这样一来就会拉升硬件成本。所以,Infortrend作为专业的存储厂商,在选择CPU这样核心的硬件部件时,秉承了“选择合适的硬件部件, 同时降低硬件部件的功耗和成本”的原则。

Infortrend EonStor DS 1000、1000T、2000、3000、3000T均可以提供5500MBPS的Bandwidth性能。配置不同的CPU区分不同的IOPS性能。这样的产品规划对于大数据环境的混合型应用压力,用户在选择时可以选择最为合适的产品部署。即便是EonStor DS 1000系列,虽然只是采用了单核心、SoC架构、低于10瓦功耗的CPU,依然可以提供5500MBPS的Bandwidth和380K IOPS。

在大数据环境下,如果同时需要存储系统提供30000 IOPS和1500 MBPS Bandwidth,Infortrend的存储系统怎么配置呢?

需 求:30000 IOPS & 1500 MBPS

配 置:RAID 5 + HotSpare

DS 1012 × 1

JB 2012 × 1

7200rpm HDD × 20

SSD × 2(单颗IOPS 15000)

SSD as Cache × 1

从以上的配置实例可以看到,SSD通过固态缓存加速功能(SSD as Cache)支撑30000 IOPS压力,7200rpm HDD可以承担1500 MBPS Bandwidth压力,并且7200rpm HDD可配置2TB、3TB、4TB和6TB,实际存储空间最大可超过100TB。

大数据环境对于整个信息化产业来说都是改革期,以前的观念、对产品的认识、解决问题的办法,统统都需要改变。变革期会经历一段时间,而不是一瞬而过。当然,过度到大数据环境也并非过去几十年间信息化产业的唯一变革期。Infortrend过去二十余年的发展史,面对过多次技术的变革,从不同时期推出的不同产品就可以看出。

Infortrend公司面对大数据环境, 发布第八代存储OS,以满足混合应用压力;细分EonStor DS家族产品线,以实现更合理的TCO开销;补充固态缓存加速、自动存储分级等存储系统功能,以帮助使用者更灵活的存储系统规划。

总之,面对大数据环境,Infortrend作为一家拥有存储OS研发能力的存储厂商,会不断根据技术、应用趋势的变化做调整,以此为使用者来带更合理的存储系统产品。