柏科数据刘夏鸣:全闪存分布式应用与实践

按:12月3日,为期两天、由百易传媒(DOIT)主办的2019中国数据与存储峰会(DATA & STORAGE SUMMIT)在北京盛大开幕,与会专家对新一代关键存储技术趋势及数据创新应用进行了热议,大家一致认为数据智能将成为数字产业发展的关键推动力,驱动中国和企业数字化转型。

峰会第二天,共举行了十场分论坛。在“分布式存储与应用论坛”上, 柏科数据渠道销售总监刘夏鸣以“ 全闪存分布式存储的应用与实践 ”为主题发表演讲, 分享了分布式存储建设过程中的问题 ,介绍了柏科的三种实施方案、产品体系架构以及分布式存储应用方面的成果和实践。

以下内容根据速记整理。

图:柏科数据渠道销售总监刘夏鸣

刘夏鸣:大家好,今天我代表柏科数据介绍一下我们在分布式存储应用上的一些成果和实践。

关于全闪存分布式,在三、四年前,谁和我说分布式存储全部使用闪存介质,我会啐他一脸,这个东西太贵了,大家做分布式存储,都想着是高性能、高带宽、低成本,其实这完全符合我们国人的一些想法,就是花小钱办大事。

关于分布式的这个应用,给我的感受是很多的IT技术在用户端的应用,是在一些实际的需求问题逼迫下产生的,在逼迫中寻求一种进步。柏科也是被实际的客户需求逼迫来做全闪存分布式存储的。

简单介绍一下柏科。柏科进入到国内,经历了12个年头,国内基本上主要的地区都有全资分公司与一些合作的服务商,覆盖了国内的主要区域。从某种角度来看,客户分布也是比较广,在服务能力上也是没有问题的。整体来讲,柏科一直是做存储的公司,公司建立开始,我们的公司宗旨就是“Bring life to Data”,就是指“给数据注入生命力,活力永续”,我个人感觉就是数据的灵动。过去DAS,数据存入以后就基本不动了,现在分布式应用及互联网的情况下,我们希望数据能流转起来,能灵动起来,这里面有存有备有复制有迁移,有应用到大数据里面,有到智能数据湖中;就像水从源头流入到湖里面,从数据湖里面可以做更多的针对数据的开发和挖掘,让数据更有价值。

柏科公司从开始就是一个做存储的专业公司,前身源自美国贝尔实验室,专门做广电媒体行业的专业存储公司,进入到国内以后,发现用户对产生的数据更重视安全保护,才有我们现在的备。从备份之后,大家想到数据放到本地还不够安全,放到异地去,所以有了容灾。从存的产品演化到备份容灾产品,甚至到了分布式,我们的AI团队也做了这方面工作,包括融合计算、统一计算等方面。

柏科产品不断的演化和研发,按照用户需求和自身对产品的要求,我们做了现在公司产品的延续。

今天公司其他产品线先不谈了,只讲和主题有关的分布式存储,柏科在分布式产品线为什么能诞生。

从2009年,柏科开始做一些分布式的文件系统,早期的时候如果没有记错的话,那时候基于GlusterFS来做,那时候看到GlusterFS面对海量的小文件性能非常的糟糕,现在同行业里面也都在通过很多技术手段来解决此类问题。

2013年,我们推出了分布式块存储,就是在看到用户业务需求里面又需要高的共享性,更需要高的性能,按照这样的想法我们的分布式块存储也就这样诞生了,在2013年已经在一些客户里面去应用,包括一些做动漫渲染,国家级的渲染,比如说北京电影学院这些业务系统应用在这里面,2015年推出了文件块和对象三合一产品,2016年在亚洲最大的动漫渲染基地新疆落地,里面大量分布式存储应用到我们的产品,包括计算节点。今天讲的主题全闪存分布式存储。闪存介质很贵,怎么有效放到分布式存储中呢?看一下我们怎么来做的。

业务需求驱动分布式存储技术发展

一个好的产品发展也是应业务需求,分布式存储整体发展也是业务需求导致,最早就是面对的海量数据能够对它进行高性能高效处理,这是分布式存储最开始的想法,但是到现在,大家会碰到或多或少的问题。我们需要不光是存储,还加上计算的融合,包括如何应对海量小文件,包括新的介质融合,以及对块设备这方面高性能的追求,包括数据访问的负载,甚至和第三方业务平台有一些接口等。在这样的情况下,业务需求上都有不同的诉求。

分布式存储建设过程中的问题

分布式建设中,我们当然会遇到很多的问题。闪存盘解决了机械盘的一些问题,闪存的性能会快,机械盘会慢一些。我们推出全闪存分布式,希望把性能提高。第二个是分布式文件系统的小文件的处理效率问题,就是海量小文件去访问的时候源服务器的压力会很大,分布式存储系统应用带宽问题,IO路径比较长,对性能影响问题,这在系统建设的时候,是和高性能要求上背道而驰,还有分布式数据的安全性和可用空间的问题,这和传统的SAN不太一样的地方,分布式上用副本的方式解决。比如说两副本三副本,虽然安全,但是空间利用率低。通过EC的算法有效的提升空间利用率。EC的算法如果做不好和我们的想法就背道而驰了,因为会影响到分布式系统计算的资源。块设备延时也一样。

为什么把全闪存放进去?柏科有自己的想法。我们从两个角度来看,第一个,把分布式存储定义成SDS(软件定义存储),其实来讲SDS是一个广的范畴,从我的角度来说分布式存储只是其中一个部分,可以使基于X86架构的平台,或者国产平台;在某些应用领域替代传统光纤存储都是有可能,柏科也在这方面做。

分布式存储系统到底是软件硬件分离的,还是软件硬件融合的。从软件定义存储的概念开始是一个软件,首先大家很习惯分布式存储是软件,装到通用X86硬件平台上,所以软件和硬件耦合度并不是很高。从柏科的角度是有点紧密的,原因在于,从每一个做硬件的角度和做软件的角度来看,分布式里边存在软硬件兼容性问题,如何把硬件架构中的基础部件“砖头瓦块”的性能压榨出来,如果压榨不出来就是性能的损耗,单一的节点,每一个节点性能不能压榨出来,累加起来只能通过累加的(scale up)方式拼命的增加,某种意义上对成本控制是有问题的。所以软件和硬件要有一个协调,要有一个兼容性,能得到更多的硬件的信息,通过软件来调整,把硬件诸多的性能吻合发挥出来,从硬件上重构,可能是基于标准的硬件系统。

举一个例子,大家买车一样,量产的车都是四个轮子有门有座椅,柏科希望不是普通的量产车,在量产车上去加一些改造的一些配件,车改,但又不希望那些特别魔改的,魔改一塌糊涂,魔改车比量产车诸多方面都好很多,在座各位也有人希望改装车,我们注重的是在成本控制下车还可以跑的快,符合开车人的需求。

我认为分布式存储文件系统的应用者其实是驾驶员,你知道你的习惯是什么,你买分布式存储是要解决什么问题。不管是量产车还是魔改车,还是适度改装车,驾驶员是有很大的关系,也就是说用户业务导向,业务需求对分布式存储系统选择有重大的影响度。菜鸟司机开着赛车,叫赛车手开量产车,菜鸟司机也跑不过,别看车好。

从柏科角度来讲,硬件重构并不是完全推翻以前的标准架构,不是部分的节点上做魔改,魔改首先第一个在介质上,要通过SSD、当然不是放弃机械盘,只是在应用业务场景里,控制成本的情况下,通过引入SSD这种磁盘解决用户需求问题,这里面有一个故事我一会儿再说。

刚才也讲到了用scale up(纵向扩展)或者是scale out(横向扩展)的技术,都是寻找一个平衡,其实不管引入新的技术,如RDMA、硬件TOE,硬件纠删码等,都是希望把延时缩短,尽可能靠近本地的处理,让数据离处理中心计算更近一点,通过TOE网卡,压载一下,包括我们很多柏科产品里面都会体现出这些,其他产品都有这样的想法,用户主要系统资源就是用到主要用户上,我们需要尽可能帮助他把负载的压力和负担移植出来,也是贯穿整个柏科产品,其他产品线的产品都有这方面的想法。我们加入硬件的纠删也一样,通过硬件的纠删来改善降低CPU处理的压力,同某种意义上来讲卸载这些压力,同时提升处理的性能,从硬件重构的角度上简单说一下。

刚才讲到改造的角度上还有软件定义。本质上各个厂商对软件定义存储,对分布式存储系统有自己不同的理解,我们希望通过引入自己这几年的技术,AI层面分解这些压力,通过我们算法,通过我们了解磁盘的磨损,颗粒的磨损。

刚才我也讲到,软件在监控得到的信息都是由硬件厂商已有公开的信息,给什么接口才可以获取,这些已经定义了。想进一步得到,得和硬件厂商或者芯片厂商有更好的合作,才可以拿到这些需要的信息。比如说,我们可以监控磁盘的寿命,预测磁盘什么时候坏,每一个硬盘厂商都有自己磁盘寿命的监管。第三方软件获取硬盘信息的时候,只能得到标准的信息。更详细的SSD颗粒的磨损寿命等等是拿不到的,他不开放,这也是我们讲一个生态圈。柏科在这方面,为了国产化、为了自己分布式,也和上下游厂商打通关系。

这里边要讲一个和投资人有关的故事。柏科的一个投资人,初创公司朗科优盘,当初投柏科的时候,也是认为能做一个“小的存储”公司上市,也希望做一个“大的存储”公司上市。柏科这几年一直努力通过完善自己,希望很快走上资本市场。投资人就说了,要学会换位思考,做存储系统里面有控制芯片,有硬盘、有柏科的存储系统软件,像华为做存储系统。这些方面能打通横向的关系和交叉的关系,主控厂商控制芯片厂商可以提供更多的信息出来。

在分布式存储系统,大家都认为企业SSD和消费级的SSD寿命有很大的差异。柏科可以有效拿到磁盘的信息,通过软件,可以让消费类的SSD我们叫笔记本、台式机的SSD盘,具有企业级SSD的那种管理性和安全性。其实消费类的SSD的性能现在不是很差,但是有一个先天的优势就是它的成本,柏科通过软件技术,通过硬盘的监控,可以把SSD颗粒寿命写均衡,减少损耗等等,能预测到这个硬盘什么时候坏,我们自己开玩笑叫“算命”,这个产品我们原来应用到智能运维,和分布式一样,都是软件。通过这些软件的定义可以对性能加速,有效解决这些延时响应快速的问题,包括AI智能监控等等,全闪存分布式存储设想的初衷就可以实现。

弹出一张片子,特斯拉。为什么特斯拉可以卖很贵,也可以卖的相对便宜。很多人说买电动车诟病,为什么呢?特斯拉最核心是它的软件和控制尤其对于电池管理。大小像五号电池的东西密集的排列起来,特斯拉在这方面做的很好,用了几年以后电池损耗,电池部分失效的时候,并不会影响整体的性能。国内很多电池管理很差,迅速的衰减,电动车核心管理管控,轮胎座椅车板后视镜都是一样,都有很多的问题。

实际上,柏科希望通过对于硬件的重构和软件定义,包括在这个生态里面做的事情,在分布式存储市场里面能变成特斯拉型的、技术比较领先的、有特点的公司。

柏科的实施方案

在我们实施方案里,有三种。

一是纯闪的SSD,二是混合存储方案,通过SSD和机械盘的混插解决的问题;还有组合型的,通过独立的SSD pool,或者HDD pool,通过软件定义的算法,有效的按照合理用户的需求将数据迁移到不同的存储介质池中,这也是柏科的实践。

产品体系架构

看一下整体的架构。

IS Cloud产品品牌,我们基于飞腾2000+已经完成了,申威硬件平台也OK了,和华为鲲鹏平台基本上也对接完成。从硬件平台上完成硬件的兼容性,软件的功能和接口方面,合作做了分布式块接口,标准S3分布式传统应该具备的。这些通过接口层把软件功能层的功能可以通过我们的通讯化管理平台给前端的应用。

这里面就不展开了,包括这些视频、公检法包括智慧城市包括海量视频包括企业文件,金融票据医疗大数据等等。

分布式全闪的实践

讲一下这几年在这些客户上自己做出来的改变,通过硬件重构硬件定义给客户实践里头带来什么样的好处。

这个案例当初想法总共1400路人脸摄像头,主要人脸分析,1000路每天六千张,另外400路总共有两个两百路,一个一万五千张每天每路、一个两万五千张每天每路,分别存三十天,最初业务需求处理的时候文件存储延迟希望在每秒三百五十张,性能希望每秒不小于一百兆,计划存储8.4亿张,最初规划220TB,这是原来项目规划。柏科部署了自己全闪存分布式产品,硬盘配了大概192块希捷的Nytro 3731 1.6TB SAS SSD磁盘,最后在用户实际交付的时候处理延迟变成每秒钟420张,性能210MB每秒,存储容量307TB,达到用户在要求上的性能。

另外动漫渲染,最初的规划电影公司做的,用的环境里24盘位光纤盘阵,加上24盘位扩展柜与8GB光纤接口,想给出自己的共享软件,他的当时想做的渲染的素材是8兆的序列桢,25帧每秒,4K分辨率, 60分钟的故事版内容渲染,当初做的规划是每秒1.4G,渲染60分钟故事版内容渲染出来1小时48分钟。我们用三台设备,最小的组合三台配了36块400GB希捷SSD盘对这套系统进行改造以后,渲染的峰值由1.4GB/秒达到2.7GB/秒,渲染时间由原来一个小时48分变成1小时7分钟,完成同样60分钟故事板内容,提升还是很明显。

这种案例对于柏科不少,刚才也讲到了,新疆我们投资四五千节点渲染基地,号称也是亚洲最大的。

在智慧城市业务方面,这几年一直交付不少项目,其中一个项目计划两千个车道,图片900KB,每路录像头,每天要一千张、存九十天,要求处理文件处理延时每秒231张/秒,性能每秒281MB/秒,实际上最后交付的时候用了六台分布式设备,总共配置了132块希捷1.6T的盘和84块8TB机械盘,SSD pool里面在线放10天热数据,机械盘 Pool放近线20天归档数据,达到的性能由原来280张可以变到310张每秒,性能变成360MB每秒,整体存储容量并没有增加多少,虽然用副本的方式只有883TB的物理容量;帮助用户在这个项目上整体完成30%以上的提升,我认为还是不错的。

对于HIC和SDS融合系统,我们自己也做了一个测试,其实在我们交付的用户产品里面可以达到这个性能,超融合是我们另外一个产品线,分布式存储全闪分布式存储和超融合系统合作,我们节点里面我们产品里面四个节点状态,用的三副本,虚拟机大概20个,每一个虚拟机分配16VCPU和24GB内存,当时做压力测试用的4K随机的读写,每一个节点里面,大概每路CPU用的2.2主频的CPU,内存是256G。每个节点有七块SSD,在这样的情况下,在4K看到的一个数值,在64个码流上并发读的延迟是3.23ms、IOPS大概160万,在64的并发写的情况下可以达到将近460万,所以整体的性能读写的IOPS的要求和延迟的要求有效做了一些改进。

这也是我们自己在分布式存储一些经验,产品交付的时候性能都可以达到客户的要求,也可以看到我们在这几年对于硬件重构和软件定义领域的一些探索。针对业务需求,我们适当定制、去改造一些需要通过新的技术,包括硬件技术、软件技术做一些完善。

以上是柏科这几年的拙见,希望对大家有些帮助。另外,今天会场外面还有培训,还有讲座,有时间可以去我们的展台,和相关技术人员沟通,谢谢各位!

编后:本次2019中国数据与存储峰会(DATA & STORAGE SUMMIT)为期两天,包含主论坛、CIO高峰对话,以及大数据、闪存系统、分布式存储、第二存储与容灾备份、超融合与云存储、人工智能、数据创新与安全可控、容器创新与应用、SCM第五代存储与闪存控制器等十大主题论坛,超过100场的专业知识分享。初步统计,本届峰会吸引了来自政、企、产、学、研、媒体等各方参会者约2000人,在线直播观看观众再创新高,超过10万余人次。