12月5日,由DOIT传媒、存储在线和中国计算机学会存储专委会联合主办的2017中国存储峰会在北京盛大开幕。本届峰会以“数据中流击水,浪遏飞舟”为主题,吸引来自政、企、产、学、研、媒体等各方参与者超过2000人,观看在线直播观众超过7000人。
本届峰会对中国及全球存储市场现状及发展趋势进行了深入解读,与此同时,业界领袖及学术专家一致认为,从信息时代走进智能时代,数据已成为企业的重要资产。作为数据生存之地,存储在数字经济中将发挥基石作用,只有解决了存储的问题,才能通过数据创造出更多的商业价值。因此,如何让存储更敏捷,如何依靠软件定义和闪存技术实现存储产业的转型升级,成为与会嘉宾备受关注的话题。
北京中存超为科技有限公司创始人、CEO兼首席科学家沈杰博士在2017中国存储峰会上发表主题为《NVMe全闪存储的产品和技术分析》的演讲。
沈杰博士在演讲中指出,目前全闪在中国的占有率不到6%,而美国占有率已经达到36%,因此最重要的还是成本。我们认为在产品设计里,如果能进一步压缩成本。那么,在达到一定性能指标的情况下,把成本压缩下来对市场会有相当大的市场。
在演讲的最后,沈杰博士还对未来全闪存阵列发展趋势发表了自己的看法。他认为,我们知道NVMe标准,但是这个协议还没有正式发展。目前RDMA很火,也可能还有其他的会继续发展。开发平台我认为应该是SPDK。器件方面,我们知道3D-NAND器件有很大的发展前景。像Intel Purley在芯片级方面都有对NVMe更好的支持,所以在系统设计的时候一定要考虑这个问题。
北京中存超为科技有限公司创始人、CEO兼首席科学家 沈杰博士
以下为嘉宾演讲内容整理:
今天我给大家带来的演讲题目是《NVMe全闪存储的产品和技术分析》。NVMe技术这几年比较火,从这张图我们可以看到十年间数据增长了10倍。右边是IDC的报告,提到了热数据、温数据和冷数据,现在也有人提出:快数据、大数据等新概念。这我想说两点,第一是数据本身的增长非常快,第二,这些热数据都是些关键数据,比如说你的手机上的数据,或者要求实时处理的数据。
我们知道存储的革命是闪存器件带来的,现在已经发展3D了。今年已经推出了96层产品,而且预计最高可堆叠到512层。企业级存储方面,有三种产品形态,最上面的深蓝色的是全闪存,这个是最快的。中间是混合型,基本占40%,而且基本变化不大。第三部分是硬件阵列,逐渐往第二级第三级走。
性能方面,如果用SSD取代硬盘,IOPS可以达到两三万,这就是器件颗粒带来的优势,因为它使用了SSD接口,如果我们使用NVMe接口,那么则会带来更高的并发。这就是说有的时候你从硬件、器件上带来的一些革命性的东西,但是你的接口也要升级。NVMe接口大家都比较熟,它是专门为SSD开发的,指令级非常小,对TCO的占有率也非常小。
通过下面张图片可以比较一下,上面是NVMe-oF,底下是普通的网络,那我们可以看到,在一般企业级存储里要经过一层网络,这个网络协议里有很大改善,尤其是RDMA,是现在最流行的做法。可见,NVMe跟RDMA是绝配。
这张图实际上是说全闪存的发展阶段,基本上1毫秒已经是一个非常好的数字了,因为它用了SSD接口,整个阵列内部可以使用NVMe,外部为了兼顾以前的客户还是用的CPU。
现在比较一下,就是说这些年来一些全闪存的产品,我们分了三类,第一类叫传统产品扩展方案。这里我们看到厂家一般都是一些比较知名的老厂商,它的特点是它用传统的存储系统,然后为闪存器械进一步的优化。最大的优点是所有企业级的功能都具备,这个是比较厉害的。我们将注意力放在后两个,因为后两个方案是真正为了闪存而设计的,里面分为硬件和软件,我们叫闪存设备方案,这个全闪存方案无论从器件还是阵列,有没有企业级功能都不是很重要,我们只是把它看做一个设备。
最后我想说的全闪存的原生方案,整个系统就是为全闪存设计的,因此你的软件系统一定是重写的,比如我们中存,以及所有的厂家都有自己的系统,而且他们是以转接为中心的,提供一个完整的解决方案。
第一个最大的特点是在线压缩的功能,这是原生的,所以做的非常的好。而且这里头我们看到,它不光有NVMe的接口也有SAS口。这个全闪存设备方案是说,阵列提供的是高性能存储的东西,类似这种方案追求的网络延迟是10到50μs,可以说是性能非常高的一款产品。
在这里我想提一款比较有名的EMC DSSD,以前是先驱,现在算是先烈了,它做了很多想法非常新的东西。我们现在的标准就是当时他们的内部协议。在它的存储中,有一个控制模块,一个存储模块,存储模块里SSD卡,是双端口的卡,这家公司内部早就开发出来了。它也有跨设备的DMA,他们早就在做了,美国很多出厂公司可以说是提前三、五年就在做这些事情了,当然他的代价是什么,就是成本,成本非常高。现在这家公司已经被收购了。
原生的系列一定有自己的系统,一定也有文件系统的话。这一点做的比较好的是Pure strage,它可以提供机柜式的方案。整个硬件都是自己做的,所以我们说这是偏硬件的解决方案。
原生方案我还想讲一下Kaminario K2,它支持scale-out,动态划分私有存储阵列(控制器+闪存),软件定义,标准硬件。
第三个就是我们的中存光子3000,控制器是双控,前端网络40GB,当然还可以向上升级,底下用NVMe接口,原生的文件系统。
这里我想跟大家分享一下,我们在做原生的文件系统时考虑的几个问题。首先,我们找到几个其他公司的产品,比如像Pure Storage。我们想到了个部分,第一是数据的组织,什么叫数据的组织呢?因为这是一个快设备,数据块来了我放哪儿呢?其实很简单,一般就是地址寻址和内容寻址,一般的产品是这么做的。
中存用的是快速寻址的方法。通过计算,根据信息过来的块地址以及它的内容在两方面做计算,有这块以后目录数得到大大的压缩,一般目录数是有一定深度的,比如你可能是五级、六级压缩到两级三级时间是不一样的,有效的降低了时间,这是我们对数据的组织。
我们知道在SSD里对空间的回收非常的重要,它一般有两种方式,一个是参考计数,一个是参考验证,这两个词非常相近,就是你在做读写的同时,我把跟它有联系的数据块记住。这样,一定时间以后,如果没有东西跟它有联系,那么就清除掉它。还有一个叫标记扫描,它是全局式的垃圾回收。在这种方式下,它的好处就是全局做的好一点,坏处就是对系统资源占用非常大。
我们是怎么做的呢?我们参考这两种方法,在写数据的时候,我们提供一些参考信息,但是又不是完全的信息,我们的目就是减少对写性能影响,但我们还要产生一些信息,在我做标记扫描的时候就可以利用这样的信息,大大的减少我们的资源占有,同时降低性能,这就是在空间回收中做的考虑。
我们知道SSD是一个盘,你需要对它做一些划分,而且现在基本都是日志型的。中存也不例外,一种是一个区块,这个我们认为是中粒度的,细粒度的叫条带,支持变长数据块,数据聚合。我说的中粒度的区块,实际就是我们考虑的原数据,数据和日志数据实际上是分区的,有点像数据分层的感觉。首先,这样的写性能会比较高。其次,分区管理以后,内部实际上还是一个反复的可以轮换的,且磨损技术做的非常好。
作为一个存储系统,企业级存储都具备掉电保护,很多都用NVRAM。中存在这里跟大家的系统都不一样,我们有一个创新,但是还有待于系统验证。我们是直接落盘。省去中间过程,系统实际上更简单,简单就会带来更稳定。当然,系统可以特别复杂,但是一般来说简单跟稳定是联系在一起的。当然,直接落盘带来的直接好处就是,系统稳定,低配置和低成本。因为我们看到,目前全闪在中国占有率不到6%,而美国占有率已经达到36%,因此最重要的还是成本。我们认为在设计产品里,如果能进一步压缩成本。那么,在达到一定性能指标的情况下,把成本压缩下来对市场会有相当大的市场。
这里比如你的掉电保护,你得有一些东西是保证的,比如我们这里真双控,这个很厉害。为什么要下那么高的工夫降低延时呢,我们是直接落盘的。最后数据保护大家用的都差不多,把你的力度减少,这样会快。这里大家做法都比较一致了。
这张图实际上是我们一个性能图,因为在我们的展台上,现在就在演示着,右边的这个是我们做的4K随机读随机写测试,4KB随机读IOPS可达1169081。
这个图可能有些人比较熟悉,因为去年的时候我们给大家分享过,我们认为本地的主存储一般是混合型,我们也在这方面做了开发,现在进行市场推广。今年我们带来了全闪产品,而且明年会正式推出。
既然讲全闪阵列,我也想提一提以后的趋势,我们知道NVMe标准,但是这个协议还没有正式发展。RDMA是最火的,也可能还有其他的会继续发展。开发平台我认为应该是SPDK,在我们的应用开发中,正在大量使用。器件方面,我们知道3D-NAND器件有很大的发展前景。像Intel Purley在芯片级方面都有对NVMe更好的支持,所以在系统设计的时候一定要考虑这个问题。
最后做个广告,我们今天给大家带来了光子3000 NVMe全闪存新品,明年就要正式推出了,欢迎大家去看一看,谢谢大家。