浪潮产品总监赵帅:面向新数据时代的分布式存储平台

按:12月3日,为期两天、由百易传媒(DOIT)主办的2019中国数据与存储峰会(DATA & STORAGE SUMMIT)在北京盛大开幕,与会专家对新一代存储技术趋势及数据创新应用进行了热议,大家一致认为数据存储将成为数字产业发展的关键推动力,驱动中国和企业数字化转型。

峰会第二天,共举行了十场分论坛。在“分布式存储与应用论坛”上,浪潮分布式存储产品总监赵帅以“面向新数据时代的分布式存储平台”为题发表演讲,阐述了诞生于数字化转型时代的超大规模数据中心级分布式存储平台AS13000G5特色及典型行业应用。

以下内容根据速记整理。

图:浪潮分布式存储产品总监赵帅

赵帅:各位好,尊敬的各位来宾大家下午好!很高兴有这样一个机会和大家聚在一起探讨分布式存储的话题。开场之前我走了一下其他的分论坛,发现我们这个论坛的人群是最多的,后边还加了很多座位,我个人认为这是一个好现象,平时客户和厂商,虽然会讨论很多热门话题与概念,相对来说我们更关心的是一些底层的基础设施的产品和方案。

新数据时代,新挑战

在整个大的社会环境下,当前各行各业都在推进着数字化转型,在数字化转型的过程当中,无论是客户也好还是厂商,会遇到一系列的问题,比如精细化的问题,我们在追求数据的时候,越来越多的去追求数据的在空间和时间上的精细化,这对于业务访问层面,对后端存储层面都提出来不小的压力;再有即时性问题,一些实时交易需要很低的延迟;有整合化问题,我相信在座各位客户的机房当中一定有各种各样的业务,有不同厂商的设备,之间如何统一管理,业务和业务之间能不能打通,数据能否自由流动?这是整合化带来的问题;再有就是不确定性,有一些热点话题,一旦触发对最终用户来说产生一个无法预测式的访问, IT系统能不能承接突发大流量访问,这是不确定性带来的挑战。

新数据时代下,挑战和机会是并存的,IDC最新预测2025中国会成为全球最大的数据圈,未来我们还是要更多关心数据的存储与管理相关的话题。

一起看一下浪潮分布式存储。

超大规模数据中心级分布式存储平台AS13000G5

在分布式存储领域,浪潮提出了“分布式存储平台”概念,为什么叫平台,是说我们希望通过平台来解决用户的很多的问题,甚至说未来我们目标是为了解决整个数据中心的问题。

我们分布式存储平台是在今年三月份发布的,有一个概念5+X,分为两个层面,一个硬件5+X,一个软件的5+X。硬件的5+X,基于浪潮强大的服务器产品线,支持五种不同类型的硬件服务器,包括机架式、机柜式、多节点异构式种种类型服务器和分布式存储软件进行适配,每种服务器配置非常灵活,根据业务需求业务特点配置不同的CPU,IO卡以及GPU卡,这是硬件层面的5+X。

为什么这么注重硬件?我们相信,做一款产品的时候,无论任何领域的产品都有一句话,硬件是基础、软件是灵魂。在业内我们和其他公司有硬件级的合作,大家也都听说过。

浪潮分布式存储软件,在AS13000G5前身2013年上市的时候,提出了多合一的概念,在一套存储系统中可以同时对外提供三种不同的服务,后来从三合一转化为了四合一,有了大数据的对接,可以更好的替代HDFS。AS13000G5发布的时候追加了数据库访问协议,做了一个领先的预测,认为很多超大规模的数据库,因为数据量特别大,对于系统的访问延迟要求并不是很高,这些数据库可以很好落到分布式存储上。

我们软件层面有五种业务,在业界与第三方公司,如做文件云做加密的,做流直存的等做了深度集成,在AS13000容器和虚拟化技术分离出来一部分资源,把第三方软件打包在AS13000统一给用户,除了采购AS13000不用采购其他设备,大大减少用户整个TCO,为用户节省了成本。

经过多年的发展,我们对该产品在分布式存储所应对的场景中进行了分类,八大场景,包括平安城市、高性能计算、云、大数据、AI、广电媒资、电子影像和传统应用。平安城市交通卡口的图片这种业务下我们会给最终用户提供一个存储平台。在广电媒资领域,我们和广电有深厚的合作。在电子影像这一块有几个小的分支,如大家平时接触金融双录系统,录音录像最终落到分布式存储里面,因为数据文件的数量非常大,再有医院的判别系统。其他的像云计算大数据和人工智能,炒的比较热,而且分布式存储一直以来有一个概念为云而生的存储,可以很好的对接云下边的各种协议的接口。

数据中心级分布式存储平台AS13000G5

这个是我们现在AS13000G5最新版本的情况。

展开说一下浪潮硬件产品目前的一些特点。昨天我们也借着本次峰会发布了几个型号的硬件,这里给大家分享一些干货。

1)灵活多样的硬件节点

第一个型号是4U60高密度H系列,特点之一是空间相对来说比较短,可以放在一米深的机柜里,适配现在市面上99%的机柜,可以装到任何数据中心里。之所以打造这个型号,是互联网厂商提出的硬件需求,因为浪潮一直以来产品是以用户的业务为导向进行研发设计。

第二个系列是高弹性X系列,可以做到4U72盘位,这样的密度下配合14TB大容量硬盘,可以做到一个节点可以达到一个PB的空间。这个是一个高密的机型,还支持非常灵活的配置,可以把一个4U的节点内部变成两个小的36的节点,也可以变成四个小的节点和八个小的节点。当我们把这个设备交付给客户的时候,一个节点就是一套分布式存储,这个是我们一体机相关的解决方案。

第三,高性能P系列。大家可能听过浪潮集团旗下浪潮商用公司,里面有在具体一点是POWER架构的服务器。我们也可以把分布式存储软件和POWER结合到一起,高主频高线速,单节点IOPS性能加强。这是经过客户的对比节点的情况。

2)分布式存储,极致容量与性能

接下来说一说分布式存储的特点。

大家都知道分布式存储用户在采购的时候,提到一个空间利用率的问题,有一个安全水位的概念,安全水位不是我们提1024的转换,也不是说纠删码和副本开销之后剩余多少,所有软硬件之后,系统格式化映射目录的时候,到底能不能把目录存满,所有的厂商都没有办法把目录存满,这里面涉及到分布式存储底层架构的问题,要做节点和节点之间数据流动和IO的均衡,所以说各个厂商推荐的安全水位都不太一样。

AS13000G5把之前90%的安全水位通过多机制和哈希计算系数提高到95%空间利用率,增长5%的点给用户带来的效益,用户一次系统采购当中可以少买几个节点,少买几十块硬盘,是一个比较有经济效的优点,除此之外我们还有千亿级文件的支持,很多客户项目当中,很多时候客户一天落到系统中需要落一亿个文件,文件保存周期虽然不长,但是进行了半个月或者是说一个月保存中需要分布式存储支持千亿级文件。浪潮经过了国家级第三方测试机构的验证,支持千亿级的文件。

分布式存储更多的是去对接前端的云和前端的虚拟化,最近一两年做了一件事和云进行了全面的对接,取得了Openstack和VMmare的支持,不需要担心系统的兼容性的问题。还有一点特别灵活,AS13000G5支持第二次开发,浪潮存储给用户开放一些源代码,和用户一起适配调试优化,在很多高性能场景当中取得了非常好的效果,在不经过优化的情况下,一个存储的节点可以跑出1.5到1.8的性能,优化之后单节点可以跑出2.5 G的性能。除此之外,上一代的AS13000产品,分布式存储的规模一个集群就是5120个节点,这一代也没有变;变化的是说每个节点最大容量变了,现在支持EB级的容量。

我们发现,有很多客户初始化配置的时候都是五个PB或者十个PB数据量起,确实是说我们遇到了数据爆炸式增长的问题,相信未来我们会越来越多用分布式存储整合数据中心当中各种各样不同的数据,整合我们数据中心当中各种各样的传统应用以及智能应用。

3)协议自由转换,轻松上云

接下来我们重点看一些有特色的亮点。前面提到了我们有一个概念叫多合一还有5+X,现在友商也都在做。就是说,无论大家去做多个系统的统一管理还是说做一个单一系统的多种服务,这里边会有一个绕不开的话题,就是协议的自由转化,我现在接触到了前端有一些客户,他反馈的一个要求就是在本次采购,这一次IT系统建设的时候,不知道应该采购什么样的分布式存储,不知道买分布式文件还是买分布式对象,未来有可能上云,上云可能会对接S3,现在有可能业务偏向于文件。因为我们支持有一种技术叫多元零拷贝的技术,这种技术直白翻译过来相当于支持协议的自由转换。怎么说呢?就是说用户在最开始部署的时候可以部署分布式文件,可以存了很多数个TB的文件级的数据落到存储上,后来有一天不想迁移修改,想把数据转变成对象的数据,对外提供对象的服务,我们可以不需要经过任何的其他的产品的帮助,不需要经过底层的数据迁移拷贝镜像,把这个数据从文件数据转化为对象数据。

为什么支持这样做,我们多合一最开始设计的时候,就是协议的自由转换来支持的多合一。这个设计的思路从2013年发布AS13000就没有变过,六年的时间我们软件栈在原有设计思路上没有转换,没有切换过软件栈。

4)满足不同业务需求的多中心容灾

很多用户完成了一个数据中心的生命周期管理的时候,往往考虑下一步在异地建第二个数据中心,可能会有一个三到五年的规划,涉及到了双活数据中心以及两地三中心,在很多金融行业都有实际落地。大家平时关注IDC分析报告,分布式存储圈子里面,文件、块和对象三种数据服务发展最快是对象,未来增长率最高是对象。浪潮存储支持了对象的多数据中心的容灾,多数据中心容灾体验就和传统的集中式的存储是一样的,比如说基于存储做双活,基于存储做两地三中心,采用的技术架构也差不多,这里边有一点就是第三条,支持智能WAN加速。

智能WAN加速是什么样技术?在多数据中心之间采用异步数据复制,可以降低30%到50%链路带宽。在容灾解决方案的建设过程当中,有一半左右的预算被链路开销掉了,对用户来说也是非常大的一笔节省,是智能WAN加速带来的体验。分布式存储在未来可以帮助越来越多的客户去构建容灾的系统。

从2019年上半年到现在下半年这么一年时间,在互联网以及金融领域,越来越多的客户在考虑用对象存储去做双活去做两地三中心。

5)智能运维AIOps

分布式存储有一个概念是要存取海量数据,所以要求分布式存储要能够不断的去扩展自己的规模。随着时间的推移,我们会发现分布式存储可能节点数量会达到一百多个节点,会有好几千块硬盘需要用户不停的去管理去更换去运维。有没有一个非常智能的一套软件能够帮助用户的运维人员减轻管理和运维的压力?是有的。浪潮有一款叫InView智能管理软件可以管理浪潮全系列的存储,包括集中式的混闪全闪以及分布式存储,这款软件部署之后,对环境内部所有的分布式存储节点进行智能化存储,用户调节所有节点配置的时候,只需要在同一管理界面进行简单两到三步操作就可以批量化配置。像故障监控包括性能预测,各个厂商也都提到了。

这里边说一个重点是深度优化的功能,硬盘的故障预测,我们过去三年里面从厂商收集了五十万块硬盘的日志,拿回到数据中心实验的环境下通过机器学习和AI分析之后,发现市场上常见的硬盘故障可以被预测的,比如说希捷,英特尔的,故障预测准确率达到了两周时间周期内85%的精度。也就是说在统一管理软件界面下,可以给用户提供硬盘故障率智能感知,分布式存储上面三千块硬盘,未来两周之内会坏的是几块硬盘。目前这套智能管理系统,包括我们的硬盘故障预测这个功能是促销的,在2019年以及2020年上半年都不会收费,跟随着AS13000G5一起销售。

浪潮分布式存储,国内领先

大家都知道,分布式存储用户一旦采购了之后,就是在原有的分布式存储上进行不断的扩容。因为分布式存储这个容量增速比集中式存储大的,里边存的大多数存的非结构化数据,经过后台数据分析发现,确实有比较不错的成绩。重复购买率比较高,41%,也就是说每卖出去一百套,最终会有41个客户会进行重复的采购和扩容。这个是我们现在取得的一个比较好的成绩,前面提到了分布式存储和云对接,大家都知道云无论是像公有云还是私有云这样的分类,还是说你去按照政务云、企业云、通信云等等这样分类,都可以用分布式存储承载用户前端各种应用。

经过多年的努力,浪潮的分布式存储全国范围内实际云相关的项目落地也有很多,包括北京城市副中心,济南市的政务云、山东省的政务云,广西的政务云,内蒙的政务云相关的规划以及项目的最终落地,都和我们分布式存储有很大的关系。

昨天论坛中我们也提到了,国内的某个率先进行了IT架构转型的大规模运营商,他认为业务和数据是应该部署在分布式存储上的,所以在2017年开始,一直到现在2019年,三年左右的时间总共发布了三次集采的招标的入围这种活动。经过了几十项深度的测试,浪潮和友商一起参加三次的集采,浪潮三次全部入围,从侧面也证明了我们产品性能以及稳定性可以达到用户比较高的一个要求。

后面再介绍几个典型的案例。

个案:助力智慧交通、广电媒资、科学研究等行业数字化建设

在智能交通领域内,某个城市有一个三环路,有五六千个摄像头,五六千个摄像头对道路的状况进行管理包括主路和辅路,管理路上的车辆行人,以及相关的违章种种相关的事故,每一天五六千摄像头产生一亿文件,90TB视频,一亿文件会带来四亿次文件的检索,都是对后端检索提出的性能。多轮测试当中,浪潮分布式存储最终给用户提供108个节点,很好承载了用户的需求;系统上线之后,人工的行为纠察提高了80%,包括一些关键的交通运管系统,都得到了很大的提升。

在今年,浪潮和清华大学配合做脑科学研究的案例,清华大学为了研究小白鼠大脑,搭建了28台高速相机,每秒钟拍摄三十张高清图片,每张图片是1200万象素24MB,要求20GB恒定带宽,每次作业需要24小时不间断出图,对系统的性能以及稳定性都有很大的挑战。我们最终给清华大学第一阶段做了50个节点,整个分布式存储给上层提供了45GB的带宽,很好完成了高性能的项目。

分享在广电媒资领域,浪潮存储和广电国网合作的案例。客户除了BOSS系统以外,其他所有的应用都部署到了AS13000上,包括非编类业务,我们创造了三种不同容量层,有大容量硬盘层以及SSD硬盘层,承接不同的应用,而且这个用户有三个数据中心,需要配合远程数据复制的功能搭建两地三中心,这样的情况下浪潮给客户提供140多个节点分布式存储集群,完成了项目部署。用户业务上线之后最终反馈的结果,IT的这种架构转化比较成功的,完成了一次架构的转换。

以上的这些就是我想给大家分享的内容。

希望大家能够过多关注一下浪潮分布式存储,因为每一年我们的软件和硬件都有非常大的变化,也希望我们的变化能够给在座的各位带来数据中心的建设的一个帮助。希望能够帮助大家去很好的完成未来的一个IT的数字化转型。

谢谢大家!

编后:本次2019中国数据与存储峰会(DATA & STORAGE SUMMIT)为期两天,包含主论坛、CIO高峰对话,以及大数据、闪存系统、分布式存储、第二存储与容灾备份、超融合与云存储、人工智能、数据创新与安全可控、容器创新与应用、SCM第五代存储与闪存控制器等十大主题论坛,超过100场的专业知识分享。初步统计,本届峰会吸引了来自政、企、产、学、研、媒体等各方参会者约2000人,在线直播观看观众再创新高,超过10万余人次。