浪潮分布式存储在做的几件事

近日,浪潮分布式存储总监赵帅在2019中国数据与存储峰会上介绍新数据时代的分布式存储发展趋势以及浪潮在该领域的理念、技术框架以及完备的解决方案。

赵帅:大家都知道现在在整个大的社会环境下,各行各业都在推进着数字化转型,在数字化转型的过程当中,客户也好还是厂商也好,会遇到一系列的问题,比如说精细化的问题,我们追求数据的时候,越来越多的去追求数据的在空间和时间上的精细化,精细化问题出现以后,对于业务访问层面,对后端存储层面都提出来不小的压力。在有即时性问题,有一些交易需要实时交易,需要我们有很低的延迟。再一个整合化问题,我相信在座各位如果要是客户的话大家的机房当中一定有各种各样的业务,而且有不同厂商的设备,不同厂商设备之间如何统一管理,业务和业务之间能不能打通数据能否自由流动这是整合化带来的问题。再有就是不确定性,有一些热点话题,热点话题一旦触发之后,对我们最终用户来说产生一个无法预测式的访问,你的IT系统能不能承接突发大流量访问,这是不确定性带来的挑战。新数据时代下我们挑战和机会是并存的,IDC最新预测2025中国会成为全球最大的数据圈,我们未来还是要更多关心数据的存储与管理相关的话题。

浪潮在分布式存储这一块提出了一个概念,叫分布式存储平台,为什么叫平台,是说我们希望通过一个产品一个平台来解决用户的很多的问题,甚至说未来我们目标是为了解决整个数据中心的问题,我们叫分布式存储平台,我们分布式存储平台在今年三月份发布的,有一个概念5+X,分为两个层面,一个硬件5+X,一个软件的5+X,硬件的5+X我们硬件基于浪潮强大的服务器产品线支持五种不同类型的硬件服务器,包括机架式机柜式多节点异构式种种类型服务器和分布式存储软件进行适配,每种服务器配置非常灵活,根据业务需求业务特点配置不同的CPU,IO卡以及GPU卡,所以这是硬件层面的5+X,为什么这么注重硬件,我们相信做一款产品的时候,无论任何领域的产品都有一句话,硬件是基础软件是灵魂,我们在业内和其他公司有硬件级的合作,大家也都听说过。

我们说一下浪潮分布式存储软件,AS13000G5前身,在2013年上市的时候,提出了多合一的概念,我们在一套存储系统当中可以同时对外提供三种不同的服务,我们从三合一,转化为了四合一,有了大数据的对接,可以更好的替代ASDFS,几年发布的AS13000G5,追加了数据库访问协议,做了一个领先的预测,我们做了一个预判,我们认为一定有很多超大规模的数据库,超大规模数据库的特点,数据量特别大,对于系统的访问延迟要求并不是很高,这些数据库可以很好落到分布式存储上,这是我们预测。数据库协议也已经出来了,实际落地的案例虽然并不是很多。我们软件层面五种业务,我们在业界和第三方公司,做文件云做加密的,做留值存的,我们做了深度集成,我们在AS13000容器和虚拟化技术分离出来一部分资源,把第三方软件打包在AS13000统一给用户,除了采购AS13000以外,不用采购其他设备,大大减少用户整个TCU,为用户节省了成本。我们这个产品现在经过这么多年的发展,我们发现它在分布式存储所应对的场景当中我们进行了一个分类,我们定义是八大场景,大家可以一起看一下,包括视频监控高性能计算、云、大数据、AI、电子影像和传统应用。视频监控交通卡口的图片,这种业务下我们会和很多的安防厂商一样给最终用户提供一个存储平台,是一样的。然后像在广电媒资领域,我们和广电有深厚的合作,后面还有案例。在电子影像这一块有几个小的分支,一个大家平时接触金融双录系统,录音录像最终罗布到分布式存储里面,因为数据文件的数量非常大的,再有大家去医院的时候,医院的判别系统。其他的像云计算大数据和人工智能,炒的比较热,而且分布式存储一直以来有一个概念为云而生的存储,可以很好的对接云下边的各种协议的接口,这个是我们现在AS13000G5最新版本的情况。

展开的说一下我们硬件现在目前为止一些特点,昨天的时候我们也说了借着本次峰会发布了几个硬件的几个型号,这里给大家分享一些干货,我们有一个型号是4U60,特点是它的空间相对来说比较短,设备比较短,可以放在一米深的机柜里,适配现在市面上99%的机柜,可以装到任何数据中心里面,之所以打造这个型号是互联网厂商提出的硬件,因为我们浪潮一直认为产品是以用户的业务为导向进行研发设计。再有一个机型更高密,可以做到4U72盘位,这样的密度下我们配合14TB大容量硬盘,可以做到一个节点可以达到一个PB的空间。这个是一个高密的机型,还支持非常灵活的配置,可以把一个4U的节点内部变成两个小的36的节点,也可以变成四个小的节点和八个小的节点,当我们把这个设备交付给客户的时候,一个节点就是一套分布式存储,这个是我们一体机相关的解决方案。再有一个大家可能也或多或少听过我们浪潮集团旗下有浪潮商用公司,我们也可以把我们分布式存储软件结合到一起,高组频高线速,我们单结点FPS节点性能加强,我们经过客户的对比。这个我们节点的情况,再有我们之前浪潮内部有一款设备密度比较高的,一个机柜内部可以部署四十个节点。通常情况下这个节点比较受到互联网用户青睐,浪潮分布式存储硬件的情况。

接下来说一说整个分布式存储的特点,大家都知道分布式存储用户在采购的时候,提到一个空间利用率的问题,有一个安全水位的概念,安全水位不是我们提1024的转换,也不是说纠删码和副本开销之后剩余多少,所有软硬件之后,系统格式化映射目录的时候,到底能不能把目录存满,和大家说一件事,所有的厂商都没有办法把目录存满,这里面涉及到分布式存储底层架构的问题,要做节点和节点之间数据流动和IO的均衡,所以说我们各个厂商推荐的安全水位都不太一样。我们在AS13000G5的版本,把之前90%的安全水位通过多机制和哈希计算系数提高到95%空间利用率,增长5%的点给用户带来的效益,用户一次系统采购当中可以少买几个节点,少买几十块硬盘,是一个比较有经济反馈的优点,除此之外我们还有千亿级文件的支持,很多客户项目当中,很多时候客户一天落到系统当中需要落一亿个文件,文件保存周期虽然不长,但是进行了半个月或者是说一个月保存当中,就需要整个分布式存储,需要支持千亿级文件,我们在这一块经过了国家级第三方测试机构的验证,支持千亿级的文件。我们大家都知道像分布式存储更多的是去对接前端的云和前端的虚拟化,最近一两年做了一件事,进行了全面的对接,取得了Openstack和VMmare全套的构建,不需要担心系统的兼容性的问题,还有一点特别灵活的在我们AS13000G5这一块我们支持第二次的开发,我们可以给用户开放一些源代码,和用户一起适配,调试优化我们的存储,很多高性能场景当中取得了非常好的效果,可能不经过优化的情况下,我们一个存储的节点可以跑出1.5到1.8的性能,优化之后单节点可以跑出2.5大G的性能。除此之外像我们上一代的时候,AS13000产品的时候我们分布式存储的规模,一个集群就是5120个节点,这一代也没有变,我们这一代变化的是说每个节点最大容量变了,我们现在支持EB级的容量。现在有越来越多的客户,昨天在展区交流的时候,也和我反馈了一下,我们发现我们有很多客户初始化配置的时候都是五个PB或者十个PB数据量起,确实是说我们遇到了数据爆炸式增长的问题,相信未来我们会越来越多用分布式存储整合我们数据中心当中各种各样不同的数据,整合我们数据中心当中各种各样的传统应用以及智能应用。

我们再重点看一些我们比较有特色的亮点,前面我们提到了我们有一个概念叫多合一还有5+X,大家关注一下我们其他友商,现在友商也都在做。就是说无论大家去做多个系统的统一管理还是说做一个单一系统的多种服务,这里边可能未来会有一个绕不开的话题,就是协议的自由转化,我现在已经接触到了前端有一些客户,他给我们反馈的一个要求就是说我现在在本次采购,这一次IT系统建设的时候,我不知道我应该采购什么样的分布式存储。我不知道我买分布式文件还是买分布式对象,未来有可能上云,上云可能会对接S3,我现在有可能业务偏向于文件,这个怎么办。因为我们这里边支持有一种技术叫多元零拷贝的技术,这种技术简单的直白翻译过来相当于就是说支持协议的自由转换。怎么说呢?就是说用户在最开始部署的时候可以部署分布式文件,可以存了很多数个TB的文件级的数据。落到存储上,后来有一天你说数据不想变,不想迁移修改,你想把数据转变成对象的数据,对外提供对象的服务,我们可不可以做,这里边可以说不需要经过任何的其他的产品的帮助,不需要经过底层的数据迁移拷贝镜像,可以把这个数据从文件数据转化为对象数据,为什么支持这样做,我们多合一最开始设计的时候,就是协议的自由转换来支持的多合一。这个设计的思路从2013年我们发布AS13000就没有变过,六年的时间我们软件站在原有设计思路上没有转换,没有切换过软件站。

很多用户完成了一个数据中心的生命周期管理的时候,往往考虑下一步在异地建第二个数据中心,用户可能会有一个三到五年的规划,涉及到了双核数据中心以及两地三中心,很多金融行业都有实际落地。大家平时关注IDC分析报告,我们知道分布式存储圈子里面,文件、块和对象三种数据服务发展最快是对象,未来增长率最高是对象。我们这里相当于支持了对象的多数据中心的容灾,多数据中心容灾体验就和我们的传统的集中式的存储是一样的,比如说我们可以基于存储做双活,基于存储做两地三中心,采用的技术架构也差不多,这里边有一点就是第三条我们支持智能WAN加速是什么样技术,我们如果在多数据中心之间采用异部数据复制,我们可以降低30%到50%链路带宽,在容灾解决方案的建设过程当中,应该有一半左右的预算被链路开销掉了,如果开销租用的情况下,可以从原来的100GB带宽,缩减到50GB带宽,对在座用户来说也是非常大的一笔节省,是智能WAN加速带来的体验。我们分布式存储在未来可以帮助越来越多的客户去构建容灾的系统。

    最近大概也就是19年上半年到现在下半年这么一年时间,我发现在互联网以及金融领域,越来越多的客户在考虑用对象存储去做双活去做两地三中心。

    我们提到分布式存储,大家都知道分布式存储有一个概念就是它是要存取海量数据的,所以要求分布式存储要能够不断的去扩展自己的规模,随着时间的推移我们会发现分布式存储可能节点数量会达到一百多个节点,会有好几千块硬盘需要用户不停的去管理去更换去运维。有没有一个非常智能的一套软件能够帮助用户的运维人员减轻管理和运维的压力,是有的。我们浪潮有一款智能管理软件可以管理浪潮全系列的存储,包括集中式的混散全散以及分布式存储,这款软件部署上去之后,对我们环境内部所有的分布式存储节点进行智能化存储,当你调节所有节点配置的时候,你只需要在同一管理界面进行简单两到三步操作就可以批量化配置。像故障监控包括性能预测,可能各个厂商也都提到了。这里边说一个重点我们深度优化的功能,硬盘的故障预测,是说我们过去三年里面我们从四厂商收集了五十万块硬盘的日志,拿回到我们数据中心,实验的环境下通过机器学习和AI分析之后,发现市场上常见的硬盘故障可以被预测的,比如说希捷,像英特尔的,目前故障预测准确率达到了两周时间周期内85%的精度。也就是说在我们的统一管理软件界面下,可以给用户一个感知一个报警,您的分布式存储上面三千块硬盘,未来两周之内会坏的是几块硬盘。目前我们整个这套智能管理系统包括我们的硬盘故障预测这个功能是现实促销的,在2019年以及2020年上半年都不会收费跟随着AS13000G5一起销售。这是现在的一个现状。

    接下来给大家说一下国际的权威机构Gartner如何评价我们浪潮分布式存储,大家知道最著名有一个分析报告叫魔力象限,我们在分布式存储2018年时候参评,加上2019年连续两年进入到分布存储魔力象限,分布式存储魔力象限大家仔细看一下,国内的厂商只有两家,我们浪潮是其中之一,还在不断完善我们的产品。除了魔力象限以外,还有另外一个分析报告,叫用户的体验报告。这个是说Gartner很严谨调查问卷调查各个厂商最终用户,最终用户对于厂商的产品使用一年以上的时间,我的感受是什么样的,是不是能够满足我的需求,是不是满足未来得规划。调研的对象都是Gartner最终精心挑选的用户,最终访谈的问卷会发到最终用户CTU和手机架构师里面,由CTU和手机架构师评价,你是否愿意把厂商产品和解决方案推荐给其他应用商。浪潮取得了不错的成绩。还有一个报告,关键能力的报告,在魔力象限的基础上去除了各个厂商产品营销方面的一些指标和得分的情况,单纯看产品力,Gartner定义有八个维度,包括容量性能、管理、性价比、弹性等等八项能力,对于八项能力,定义的分布式存储五大领域进行了不同的打分,把各个厂商得分的情况进行了晾晒。浪潮在Gartner取得了不错的成绩,一个第一两个第二两个第三,我们归档和备份最快的。去年的时候也有排名,没有像今年这么靠前,2019年我们做了很多动作,归档备份软件对接这个层面去做了很多动作。我们现在可以对接康福相关国内知名的备份软件。除此之外大家都知道,云这个场景浪潮有自己的云也可以和第三方的云进行很好对接,这个方面我们也取得了比较好的成绩。

    接下来给在座客户包括我们的友商分享一下我们在最近的一两年实际落地的一些典型案例,我们大家都知道,现在有越来越多的分布式存储用户一旦采购了之后,就是在原有的分布式存储上进行不断的扩容。因为分布式存储这个容量增速比集中式存储大的,里边存的大多数存的非结构化数据,经过后台数据分析发现,确实有比较不错的成绩。重复购买率比较高,41%,也就是说每卖出去一百套,最终会有41个客户会进行重复的采购和扩容。这个是我们现在取得的一个比较好的成绩,再有我们前面提到了分布式存储和云对接,大家都知道云无论是像公有云还是私有云这样的分类,还是说你去按照警务云企业云通信云等等这样分类,都可以用分布式存储承载用户前端各种应用。我们的分布式存储经过这么多年的努力,全国范围内实际云相关的项目落地也有很多,这里边包括了北京城市副中心,还有济南市的政务云山东省的政务云,广西的政务云,内蒙的政务云相关的规划以及项目的最终落地都和我们分布式存储有很大的关系。在警务云方面我们和吉林省的警务云以及山西的警务云都有很好的对接和最终落地。给大家分享一下在昨天论坛的时候,我们也提到了,我们在国内的某个大的运营商当中,这个运营商相当于率先的去进行了一个IT架构的转型,他认为很多的业务和数据是应该不处在分布式存储上的,所以说他在2017年开始,一直到现在2019年,三年左右的时间总共发布了三次集采的招标的入围这种活动。经过了好几十项深度的测试,浪潮和友商一起参加三次的集采,浪潮三次全部入围,从侧面也证明了我们产品性能以及稳定性可以达到用户比较高的一个要求。

    后面是有几个典型的案例,一个是在我们的某个资源卫星中心,这个资源卫星中心有几颗地面卫星,覆盖的面积是250万平方公里,每天会产生三万张图片,三万张图片都需要快速落到后端的存储里,因为卫星飞过去的地方不会再采集数据的,只有在第二次飞过来的时候才可以,所以说这个对于后端的存储来说要求有一个非常好的一个稳定性,要求有一个非常大的恒定的带宽。用户在第一次系统建设的时候给我们各个厂商提出的要求就是说分布式存储要能够提供一个70个PB统一存储资源池,对外提供恒定40G的带宽,我们项目初期建设的时候,就给用户提供了35个节点,我们国内落地的单一系统最大的分布式存储集群。随着那一年分布式存储落地之后,用户感觉是不错的,紧接着用户进行了第二次扩容第三次扩容,分布式存储集群已经扩展到三百多节点,不断的扩,这个项目还有一个重大意义,我们实现了卫星领域第一次天上地下自主可控,这么多年一直提自主可控,因为卫星中国人早就掌握了制造的技术,地面的存储系统一直以来用的国外的友商,这个系统第一次替代掉了国外的友商。经过实际的性能测试发现效果也比较不错,而且在项目当中因为节点的数量比较多,用户希望有一种节能的技术,帮助降低整体的TCU,这里边有一个硬盘节能技术,硬盘低访问不访问的时候,降低硬盘的转速,节省整个系统的能耗。 

    接下来的案例在智能交通领域内,在某个市,这个市有一个三环路,有五六千个摄像头,五六千个摄像头对道路的状况进行管理包括主路和辅路,管理路上的车辆行人,以及相关的违章种种相关的事故,每一天五六千摄像头产生一亿文件,90TB视频,一亿文件会带来四亿次文件的检索,都是对后端检索提出的性能,多轮测试当中,我们浪潮分布式存储,最终给用户提供108个节点,很好承载了用户的云数字这套大的系统,这套大的系统上线之后,人工的行为纠察,人工的纠察效率提高了80%,包括一些关键的交通运管系统,都得到了很大的提升。

    这个里边案例是我们在今年和清华大学配合做脑科学研究的案例,清华大学为了研究小白鼠大脑,搭建了28台高速相机,每秒钟拍摄三十张高清图片,每张图片是1200万象素24兆B,要求20GB恒定带宽,每次作业需要24小时不间断出图,对系统的性能以及稳定性都有很大的挑战。这一套系统当中我们最终给清华大学第一阶段做了50个节点,整个分布式存储给上层提供了45GB的带宽很好完成了高性能的项目。

    最后一个案例是我们在广电媒资领域,我们和广电国网合作的案例,我们的客户除了BOSS系统以外,其他所有的应用都部署到了AS13000上,包括非编类业务,我们给客户创造了三种不同容量层,有大容量硬盘层以及SSD硬盘层,承接不同的应用,而且这个用户有三个数据中心,需要配合我们的远程数据复制的功能搭建两地三中心,这样的情况下给客户提供140多个节点分布式存储集群,完成了项目部署。用户业务上线之后也是他给我们最终反馈的结果,IT的这种架构转化比较成功的,采用烟囱式架构,也是完成了一次架构的转换。    

以上的这些就是我想给大家分享的内容,这里想给大家说什么,浪潮分布式存储还是希望大家能够过多关注一下,因为每一年我们的软件和硬件都有非常大的变化。我们也希望我们的变化能够给在座的各位带来数据中心的建设的一个帮助。希望能够帮助大家去很好的完成未来的数字化转型。