中国存储峰会:华为首次分享全闪存性能与可靠性的秘密

业界有个说法:一旦华为全力投入某个领域,一定会有收获。存储领域是否也是如此?

12月5日,由DOIT传媒、存储在线和中国计算机学会存储专委会联合主办的2017中国存储峰会在北京举行。在上午的大会演讲中,华为存储产品线闪存规划总监孙强指出,华为是业内能同时提供SSD芯片和SSD盘的厂商,从而实现了全闪存最佳的性能和可靠性。

孙强表示,全闪存领域华为有三个很重要的关键芯片,这是华为在全闪存领域技术领先性的主要原因。第一个芯片是存储控制器,用于入门级存储以及终端存储。第二个芯片是多协议接口芯片,即存储里用到的所有接口卡。第三块芯片是SSD控制器芯片,是SSD性能与可靠性的最好选择。

基于全自研SSD盘、全自研OS、全自研SSD芯片,通过联动与调优,华为实现了全闪存性能与可靠性的本质上的提升。华为把这一独有的技术称之为FlashLink。

2016年下半年,华为推出面向企业关键业务的第4代全闪存存储系统OceanStor Dorado V3,是仅有的在具备重删压缩和增值特性下,能够持续稳定在0.5ms的全闪存阵列,这比传统企业存储的5-10ms提升了10倍。

“天下存储,唯快不破。为什么DORADO 能有如此优秀的性能表现呢?核心就是SSD盘控制器,它是SSD的发动机和心脏。华为是所有存储厂商内唯一一个自己定制化开发这个芯片的。”孙强说。

据介绍,华为全闪存双活解决方案,可以做到两地设备之间的时延控制在一毫秒之内,而一般的双活之后,整体设备性能可能会下降一半。

4年前华为开始实践双数据中心方案,迄今,华为全系列存储,包括企业存储、分布式存储和云存储,都具备了AA跨数据中心的双活能力,实现了6个9的可靠性。资料显示,华为去年在全球已销售超过2000套双活解决方案,其中包括中石油,莱卡,西班牙证券交易所等关键客户。

在当天的演讲中,孙强还分享了全闪存发展趋势的深刻洞察。在介质方面,当前阶段到未来的一到两年内,SCM作为极高速的闪存介质,将会是首当其冲被采用的。在协议方面,目前已经过渡到NVMe,而如果未来SCM成为主存,需要什么样的协议适配时延,还不明朗。毕竟,NVMe/NVMeoF是最适合NAND Flash的协议,却并不完全适合SCM,后者需要更高效的协议和交换网络,如Gen-Z,CCI,OpenCAPI。

本届峰会以“数据中流击水,浪遏飞舟”为主题,吸引来自政、企、产、学、研、媒体等各方参与者超过2000人,观看在线直播观众超过7000人。

以下为孙强演讲实录。

孙强:整个业界存储转型的方向,抛开公有云不谈,我们主要谈线下的方向,我们认为主要是三个方面:全闪存、软件定义控制平面和软件定义数据平面。今天的讨论是一个大框架,我们主要谈全闪存。

全闪存,当前我们还是一个以NAND为核心的发展态势,毫无疑问,未来有一些新的介质会出现,比如SCM(Storage Class Memory)或者3D QLC,我们现在都用的3D TLC。为什么说全闪存是一个介质驱动的变革?我们会看到介质技术的发展使得业务系统的时延向着CPU内存靠得越来越近,左边三角形的图可以清楚的看到,当前我们主要用的3D QLC是百微妙级的,加上系统,现在我们市面上可以看到的全闪存主要的时延效果都是百微秒级别,到了SCM阶段,可能时延会从百微秒到十微秒甚至更低。

我们的元数据经常要和存储系统里面的闪存架构进行缓存。SCM,现在无论从性能还是价格来看,当前阶段到未来的一到两年内,SCM作为极高速的闪存介质,我们认为它是在存储里面首当其冲会用到的。

我们认为,未来三到五年的时间,当前企业里用的主要介质,高性能的SAS以及低性能的SAS也就是10K/15K的都会被替代,现在正在发生的是TLC替代10K和15K,未来很有可能发生QLC替代7.2K。

再分享一个有意思的现象,我们称之为介质和协议的潮汐现象。大家会看到介质和协议两个东西,就好象你追我赶的形态一样。在HDD时代,HDD本身的介质时延比较高,所以我们传统用的协议还体现不出来它的劣势,因为HDD的时延太高了,大家看到灰色的部分是介质的时延带来的整个系统的比例,占的比例非常高,现在传统的协议已经不能满足NAND时代带来的时延。再往后发展,为了适配介质的时延趋势,协议又发生了一些变革,所以介质和协议总是此消彼涨,你退我进。

当前我们有了更先进的介质,介质已经逐步过渡到更快的SCM,协议已经过渡到NVMe,在未来SCM如果成为主存,我们需要什么样的协议适配时延,这也是需要思考的问题。

我们把全闪存发展做了简单的概括,从最开始的纯硬件形态的SSD系统到后来的混合形态,到面向全闪存性能软件优化的形态,到了第四代可能就是SSD Native,第五代的闪存到底应该是什么样的形态?我们会有更快的SSD介质和更快的协议。

下面我想给大家分享一下华为在面向未来全闪存驱使下的一些技术积累。

首先,看一下我们在SCM方面的投入。SCM主要是性能,或者说关键的是时延降低带来的效益,另外,这里我想重点的提一下,为什么SCM在存储系统里首先会用在元数据缓存里?大家都知道元数据闪存的设计,它的有效容量很大程度取决于内存大小,加上一些在线压缩的技术,配合元数据在内存和SSD盘做,如果我们增加了SCM这种更快速的介质做元数据的缓存,对于未来全闪存扩展性会有很大程度的提升,当然我指原生的设计。

另外,在未来的协议NVMe这里,从服务器到交换机到存储阵列再到SSD盘,我们可以提供端到端的方案。

另外,这里要提一下,全闪存领域华为还有三个很重要的关键芯片,这三个芯片帮助我们在全闪存领域有技术领先性,这三个芯片都来自华为。第一个是存储控制器,这是目前用在入门级存储以及终端存储上的。第二个芯片是多协议接口芯片,就是现在存储里用到的所有接口卡。第三块芯片是SSD控制器芯片,可以实现全闪存领域,对于SSD来说是性能以及可靠性的最好选择。

针对刚才提到的SSD芯片,我们给它起了一个名字,叫FlashLink,Link技术就是连接的意思,我们都知道华为整个存储系统的软件平台,我们的全闪存SSD的盘都可以和我们的全自研OS做一些联动,再加上我们的整个端到端的优化,可以在性能和可靠性上对全闪存有一个本质的提升。

除了速度,我们再讲讲全闪存很重要的解决方案,全闪存领域我们也沿用了华为以前混合存储的那套OS,但是我们是重新对SSD设计的。基于大平台的优势,我们可以和混合存储联动做一些跨领域跨设备的数据联动,比如说除了两台华为的全闪存可以在同城做双活解决方案,可以和远端或者异地的混合存储做远程复制解决方案。这样的一套方案全部是可以在不同的等级实现。全闪存双活可以做到两台设备之间的时延控制在一毫秒之内,大家都知道双活,整个设备做双活以后性能可能降一半,我们可以保证在两台华为的设备之间,做双活的时候也可以把时延控制在一毫秒以内。

另外在今年的6、7月份,华为成立了自己的RPO,做自己的云服务,我们也把自己的闪存云搬到了内部服务平台上,现在大家可以从华为的公有云服务平台上购买我们的企业级专属全闪存服务,这里面也会有一些性能和时延的承诺指标。

前面讲了那么多,重点还是在讲华为在全闪存上面的技术积累,下面我简单的介绍华为去年发布的一款OceanStor DoradoV3,我们有一个关键词0.5毫秒,我们可以自豪的说,这是在业务常稳态势下的指标,是在开启相关的快照增值外件以后,并且有一定的业务压力,比如CPU负载30%、50%以上达到的常稳态。除了快,因为企业应用数据关键还是讲可靠性的,我们这里能够达到通过SSD的自研算法全冗余架构可以达到RAID-TP允许一个ARID组三块盘同时失效的双活数据解决方案。

对于双活来讲也是我们的亮点技术,除了免网关的双活,现在我们已经在全国有两千多个客户选择华为的免网关双数据中心解决方案。

刚才除了快,除了稳,现在看到的都是我们可以支持的性能。

在数据缩减方面,我们有一个郑重的承诺,3:1,是指在开启压缩的情况下,在以下三种存储里面的平均值,这三个产品包括数据库、服务器虚拟化和虚拟桌面,大家都知道在有些场景里,比如说虚拟桌面,我们压缩比做得非常高,所以说经过三种业务场景的综合比较,我们很郑重的给出3:1。

最后给大家分享三个案例,第一个是大众,大概是在去年华为在大众总部进行了合作,大众是一个全球品牌,服务36个国家,全闪存超过了70%,我们全闪存主要的应用场景是在传统应用里,比如说CRM等这些场景里。

第二个案例,在意大利电信,这个数据比较极端,华为用23套纯闪存存储替换EMC传统高端存储,这是一个新时代向旧时代的宣战。

最后一个案例,在荷兰的KPN数字化转型中,现在很多的欧洲用户,包括很多中国的大型企业用户,都会把不同的业务定成不同的等级,我们看到HOT、Warm等在各种各样的级别里,每一个级别都会有自己的属性和可靠性要求,在KPN用户这里,把整个业务模型定成了五类,我们的阵列主要满足了他的HOT和WARM两类数据。

最后,华为存储从2008年左右发布第一代全闪存阵列,至今接近十年时间,去年我们发布了V3,已经是第三代全闪存阵列了,它的关键词我们也列了,又快又稳,希望大家有机会和华为存储合作。