戴尔科技集团顾问工程师王彦飞 :SCM在DELL EMC PowerMAX中的应用

IDC与DELL EMC 联合推出的《 第五代存储助力企业数字化转型》白皮书中,指出第五存储是数字经济时代的必然产物,是面向架构,承载人工智能、物联网、5G等新兴技术的未来企业级智能存储。其中,智能是关键词。第五代存储是如何演进出来的?有哪些特征?又如何助力数字化转型?DELL EMC是如何构建第五代存储?

2019中国数据与存储峰会——SCM、第五代存储与闪存控制器应用论坛上,戴尔科技集团顾问工程师王彦飞就以上问题展开主题演讲,并阐释了SCM在DELL EMC PowerMAX中的应用。

王彦飞:现在是处于数字化转型的2.0阶段,我们1.0的时代,各个组织和用户在做自己的创新。2.0时代的到来,大家对于创新的共识,使得我们对于人工智能、物联网、区块链信息技术的使用急剧地膨胀。

五代存储的演进

将来还有3.0阶段,可能更多的是侧重于创新的持续化和创新的制度化。看一下现在所处的2.0阶段的三大特征:

1、最主要的特征,数字化鸿沟已经形成,对于个人或者是企业来讲,面前这条沟越来越深、越来越宽。对于企业来讲,如果你能成功地跨过去,可能就会上一个新的发展阶段。很多百年老店突然倒了,都是栽到这条沟里面了。把这个概念提出来,更多地引起大家对这个事实的认可和对这个事实的澄清。

2、规模化。不管是数据量也好,还是用户数也好,包括物联网上的数据节点也好,都会爆炸式地增长。而爆炸式地增长所带来的另外一个结果,就是所谓第三点。

3、创新速度越来越快,这是IDC总结的,中国互联网每分钟都会产生大量数据,都会产生大量的交易,而这种数据和交易,对于存储来讲,有了新的要求。这是我们第五代存储引入的一个切合点。数字化转型过渡到2.0阶段,原有的一些存储,可能的一些特性已经不足以满足新的业务的要求。大家看一下,这个图是我们几代存储迭代演进的过程。下面大家看到这三个大圈,是我们业务模式的更新迭代。我们认为,作为信息基础架构最核心的基础设施存储来讲,它的更新迭代主要来自于业务模式的推进。比如说,我们在所谓的第一平台的时候,只有IBM的大机+终端模式的时候,存储也很简单,直联就可以,因为服务器数量很少。随着计算机网络,应用过渡到第二平台,存储更多是向统一存储角度过渡,强调共享。随着移动互联网技术、大数据发展,现在的应用基本上跨度到了第三平台,对于存储的要求进一步提升。现在所有的存储基本上都在讲闪存,闪存是解决存储性能问题的关键组件。现在数字化转型2.0阶段,闪存已不足以应对现有的业务带来的挑战,有更新的一些特征的存储会出现。这个存储的主要特征,就是智能化,这是第五代存储的主要的关键字。

第五代存储的主要特征

在今年,我们和IDC联合发布了关于第五代存储助力数字化转型的白皮书,大家可以从IDC网站上下载到。在白皮书里面,着重阐述了第五代存储的一些概念,以及它的主要特征。我们认为第五代存储是数字化经济发展的一个必然产物。因为第五代存储作为基础架构的核心,作为数据资产的主要的附着点,应该帮助前端的业务,进行更多的转型,所以它应该具有一些新的特征。这个新的特征,包括面向云的架构,能承载AI,能承载IOT,能承载5G这样一些新兴技术。

作为一个企业或者组织来讲,当我们在选择存储平台的时候,不管是集中存储、分布式存储,还是云存储,大家可以根据第五存储这5条具体特征来比较全面地考核存储的前瞻性、对新兴技术的适应性,给大家提供一个思路和框架。

第一个特征是敏捷高速,翻译成简单的字就是要“快”,因为现在的数据也好,应用模式也好,更新迭代地越来越快。衡量敏捷高速最主要的特点,就是要采用NVMe的技术。现在闪存基本上已经跨度到NVMe,IDC认为2018年是NVMe的元年,不支持NVMe技术的设备,不管是存储还是网络设备,基本上已经落后了一代。

NVMe只是一个数据传输的协议,NVMe主要的价值在于检索介质的性能,如果只是换了NVMe,而存储介质没有大的更新,性能的提升有限。可以理解为,NVMe是一个信息的通道,而这个通道上面,跑什么样的车,取决于采用什么样的最新的介质技术。这个介质技术,我们论坛的主题就是SCM,SCM就是最应该跑在NVMe通道上的一个最极致的介质。各个厂商的技术发展应该都是围绕着NVMe和SCM这两项技术来展开。

NVMe给我们带来的好处,就是一个持续的优化和敏捷的性能。关键点是NVMe如何发挥出NVMe最大的效率,关键在于SCM。我们相对于机械硬盘来讲已经很快了,现在各个厂商都在把SCM引到存储平台的建设中,但思路不太一样。因为SCM就是一个介质,可以存在存储的各个位置,现在各个厂商把SCM放在Cache这一侧。我们的PowerMAX,是唯一把SCM当做存储层,当做磁盘这一层来用的产品,基本上都是当做 Cache 来用,设计思路不一样,倒也无所谓,关键是要把SCM在现阶段,让它帮助我们解决什么样的问题,我们把它当做盘来用的主要思路,因为SCM比SSD的性能要好很多,所以我要用一个比SSD盘性能好很多的东西,来弥补SSD盘性能的短板。

第二个特征是有效容量。我们之前推全闪的时候,数据不停地压缩、解压缩,对性能的延时一定有影响,尤其是当IO特别密集的时候,影响会放大。我们讲第五代存储的特征,有效容量,更多的强调性能无损。如果只是压缩消除,第四代的闪存阵列里面,已经具有这个技术。

有效容量是什么?如果我们是一个20T的物理容量,消除掉了必要的冗余之后,可能变成17T。你开4倍的压缩,它就变成68T,开5倍就变成了85T,只有20T的物理资产,承载了数倍于物理资产的容量。这个方式带给我们最大的好处,除了性能的提升之外,机房空间、能耗、冷却的费用降低。现在数据爆炸式增长,我们解决爆炸式的方式,应该更智能一点。有效容量是帮助我们解决这个问题的最主要的一个方式。

我们第五代存储有效容量的计划,这是针对用户推出的。这个计划是为了促进用户能使用有效容量。对于用户来讲,有两个好处,一个好处是说你可以降低运营成本,因为不需要很多的机房空间。另外一个好处,可以间接地对于自然环境的保护,做一份贡献。大家看比较量化的计算,如果100T的有效容量跟100T的物理容量,它的耗电量所产生的温室气体的排放,大概可以减少700多公斤二氧化碳的排放。一棵树一年会消耗掉10公斤二氧化碳,我们相当于在环境里面种了700多棵树。

第三个特征是无缝接云。数字化转型两大出发点:一个是以数据为核心,第二个是一定要依靠于云的力量。无缝接云,现在的设备,存储平台,不管是集中平台、分布式平台,一定要有一个对于云原生业务的支持能力,对于多云业务共存的配合能力。概括起来讲就是云连接系统、云数据服务、云数据洞见。

云连接系统,要求现在的存储不会成为一个新的信息孤岛。因为我们在所有的组织当中,应该都有云设施,不管是私有云,还是公有云,不管是自建的,还是购买的。这个存储平台,如果不能跟现有云进行整合,进行关联,它会变成一个新的信息孤岛。将企业内部的设备连接到云当中,是我们第五代存储所具备的一个最基本的要求。这个连接实现了之后,可以实现数据中心内部的数据跟各种云的资产数据之间自由流动,对于我们数据的维护来讲,是非常重要的一点。

另外一个是云数据服务。以前提供的数据服务都是在设备内部自己的。我们希望这个数据服务能扩展到这个数据之外,最好能扩展到更加廉价、管理更加简单的云资产之上。新的第五代存储里面,应该具有一些和云数据服务做对接的一些新的解决方案。比如说做容灾,以前需要一个对等的设备在灾备中心,现在灾备中心可以直接建在云上,当成一个虚拟的灾备中心,或把核心资产的一些数据备份在云上,从云上快速恢复回来。

除了云连接和云服务之外,还有云数据洞见,要从云层有一个宏观的自动化的、对数据和对于存储运维管理的平台。我们主要的工具就叫CloudIQ,可以对DELL EMC的存储平台进行云化管理,建构在自身的一个PaaS平台上的云原生应用,可以把设备上面,可能希望得到的一些信息,如报警、容量的使用、健康管理的信息,下发到各个移动设备上,可以实时掌握数据情况。这个是我们认为第五代存储,从云的自动化运维角度来讲,应该具备的一些特点。

第四个特征是数据护航。数据的安全性,数据的可靠性是第一位的。数字经济,数据作为企业的资产越来越成为第一生产力。存储,不管如何地扩展它的一些额外的功能也好,一些新兴的技术也好,数据资产的可靠性是存储最应该具备的第一优先级的问题。

我们看存储具备能力的最直接指标,应该提供6个9的可靠性,6个9是应该具备的最低要求。6个9是30秒,7个9是5秒钟,对于一个故障,或者对于一个业务连续性来讲,6个9和7个9、8个9差别不大,所以把6个9定义为最基本的门槛。

数据从边缘到数据中心,到云里面都有流动,我们对处于各个阶段的数据进行比较完善的保护,我们提供一个全面的数据保护的方案。这个金字塔里面,越往上对数据的连续性和重要级别,要求越高。越往下,要求的相对来讲会低一点。除了归档数据备份和恢复之外,最重要的是提供基于复制的容灾的技术,基于CDP连续数据保护的容灾技术,可以实现RPO、RTO等于0的连续的可用性。就是常说的双活系统或者是多活系统,这是整个数据资产保护的金字塔的塔尖。这个塔尖,现在越来越多的应用都需要这样一个技术,因为我们以前绝大多数的业务都是5×9,大家去银行办业务的时候,银行一关门,大家就都只能等到明天了。现在银行关门之后,还有很多用户,通过互联网,通过手机银行去访问它的系统。大家会发现,很多数据库的业务基本上都是要7×24小时提供服务。我们前面讲塔尖的这一部分应用得以大规模地去使用,而这一部分方案,恰恰是我们作为存储厂商比较在意的,比较擅长的。

刚才讲单机可靠性,就算是100%,对于大家来讲,依然是远远不够的。为什么要有容灾系统,为什么要有双活系统?因为单机系统100%,数据中心一定要有跨距离、跨空间的容灾系统,这才是实现连续可用性关键的点。这个点考察的就是连续可用性的解决方案。

第五个特征是AI赋能。有的是通过更高的性能,比如说有的是通过AI来提高命中率,有的是通过AI实现数据正确摆放,也有的通过AI来实现自动化的运维,减少运维的复杂性。第五代存储AI运维,不管用在哪个领域,希望这个设备是基于人工智能的技术来进行一些故障及运行趋势的预测,一定要有预测的功能。因为机器学习、AI也好,最主要的功能就是做预测。

我们现在在存储里面用得比较完善的一个机制,有一个机器学习的机制,是配合SCM来使用最新的技术。因为SCM虽然性能很好,但是它的价格依然很高。如果我们把它当做盘来用,一定要有一个分层的机制,我们是引入了机器学习的算法,主要的作用,就是通过对以往数据的分析进行统计和预测。我每一个数据块在未来某一阶段的冷热程度,可以保证把热的数据块放在SCM上,一定是现在和未来一段时间,肯定会热。这个分层的机制,相对于以前的分层机制来讲,有了一个很大的本质不同,它可以预测未来数据块的冷热程度。以前所有的分层机制基本上都是事后统计的功能。大家发现每家都有分层,但实际上各个用户用得非常少,分层的机制,对于优先介质的使用效率并不高,当统计到这个数据块是热的时候,把它迁移到SSD上,是有个时间的,大概是小时级,迁上去之后,可能已经不热了,还要再迁下来。如果作为用户,一定会发现,我们最简单的使用SSD的方法,是直接固定到SSD上,不用分层。我们最新的机器学习引擎,可以帮助大家解决这个问题。通过预测,如果有一些周期性的业务特征,比如说每天早上8点钟,有一些数据是需要进行大规模的访问,这个机器学习引擎,通过一段时间的学习之后,会识别到特征,在每天8点之前,把要访问的数据提前放在SCM上,这就是机器学习给整个分层带来的最本质的变化。它可以预测数据的冷热程度,把数据进行正确的实时的摆放。这也是把SCM当做盘来用的一个最重要的技术基础,如果没有这个技术,我们把SCM当做盘来用的效率也好、效果也好,就会大打折扣。