宏杉科技CTO曹镇:无限数据 无界存储

AI、5G、互联网等新技术不仅带来了层出不穷的应用创新,数据也在不断地激增,数据形态复杂多样,由此引发了一系列的存储形态的变革,过程中,以高性能著称的全闪存突出重围,提到全闪存,就不得不提到宏杉科技,在SPC-1性能排行榜中也在不断取得新的突破。近日,杭州宏杉科技股份有限公司技术总监曹镇在2020中国数据与存储峰会全闪存存储论坛发表题为“无限数据 无界存储”的精彩演讲,与浪潮、Memblaze、中存超为等企业的技术专家共同论道闪存未来。

杭州宏杉科技股份有限公司技术总监曹镇

宏杉科技致力做专业存储已有十年,数据量的增长和十年前甚至二十年前相比整个变化已经不在一个级别。到2024年,全球基本上可以看到近200GB数据量的增长。

在十年前,大家都谈核心交易系统,我们谈的是一些结构化的数据,现在所处的时代,按照IDC新的说法,几个大方向都在转变,我们现在所处的类似于非结构化数据年代。

大家可以看一下,首先是全闪加速,在2010年的时候,890片10K转速的2.5寸盘,能够跑到十万的IOPS。那个时候我们来讲,都已经欢欣雀跃了,我们觉得是当时业界最高的值了。但是现在可以看到,拿闪存来讲,几乎整个延迟和性能都是巨大飞速的提高。也就是说今天看到所有存储的瓶颈,基本上原来都是后端介质,但是闪存来了之后,确实给这个时代整个发生了一个变化是相当大的。

第二个,我们看到更多的解决方案包括一些厂商在原来自己产品方案都提过数据湖这个概念,可是当时没有感应到结构化数据和非结构化数据产生,还有在AI现在这个年代里面,这些数据真正形成数据湖之后,我们才发现有诸多的盲点。比如说实际应用解决方案当中怎么把对象存储和NAS替换还是结合,包括在一些结构化影像来讲,几亿数据怎么解决等等都有很大的变化。后面再看主要是两个更大的方向,一个是对象存储,再一个是软件定义。

对象存储和软件定义是长期趋势

对象存储在最开始应用起步时,是一些做内容管理的公司推出来的。2006年的时候,我们看到一些传统的存储企业在谈对象存储这个概念,但是似乎刚需应用没有来,因为没有看到更多的非结构化数据,比如微信一天的非结构化数据图片15亿张,这是一个相当大的非结构化数据时代,所以需要在对象存储和软件定义这部分。

我们为什么要讲软件定义,因为对象存储真正的应用兴起还是因为云,几个云的厂商,包括BAT。在软件定义的时候基本上把对象存储上升到软件定义,扁平的概念,就类似于像看谷歌一样,没有搞清楚谷歌为什么用一个新型的GFS替换SAN,但是在今天才意识到互联网时代,数据整个存储结构整个变化性是非常大的。跟大家说一下,现在切身有一个体会,目前行业几个相关应用,比如说高性能预算数据元数据IOPS上,我们看到更多有一些SPC方案,现在基本上NVMe SSD来做元数据节点,要求值从早期看到几十万的大IOPS到现在的几千万IOPS,这是发生的一个变化。

比如说数据湖,现在4K、8K炒了很多年,大家知道一个8K的片子, 原片基本上是2TB,带宽会对整个数据性能上产生极致的变化。我们刚刚讲SPC-1,带宽这方面也是很大的变化。再一个海量的数据对应对象存储,因为现在非结构化数据,只要实体有的应用基本上都是亿级的文件来做技术。

宏杉最早起步主要聚焦于SAN,在后面几年的变化中,宏杉在文件和对象包括软件定义还有备份的解决方案,也做了大量更新。在2020年的也是把产品线分成四大类,一个是传统SAN存储,另外一个基于整体结构上构建了一个比较完整的文件系统,再一个开发了对象存储,后面也是有一些合作方面整个备份的解决方案。

2020年目标还是在一个平台之上能够把自己真正原有企业落地解决方案整合在一起。2016年3月30日,宏杉首次发布CloudSAN平台,在2019年升级为CloudSUN解决,把所有的存储方案整体打通。

这是NVMe的时代

从我入圈开始,大家一直遵循两件事情,一件事情当年做硬盘的时候,存储最大的时候都是因为硬盘,而且是主流,所以硬盘在SSD出来之前,始终解决不了的一个问题,主要还是这个盘本身的延迟和后端协议上的问题。当年的时候,SCSI3这个协议,当年已经足够了,包括后来看到所谓SAS一些协议,不管是2.0和3.0,主要还是基于SCSI3。NVMe出现的时候,大家在当年都是略微有一些措手不及,第一个发现了具有这样一个低延迟发生,NVMe本身的SSD做的盘的延迟已经到了几个ms这样一个状况,整体上的延迟在100ms以内,各存储厂商看到NVMe第一眼的时候,大家就想把盘阵延迟做到这么大。

在当年注定NVMe入局的时候,更重要的是下一步,今天大家看到所有的盘阵还有几个厂商测试的时候,一会儿可以给大家看一下,大家比拼的是SCSI3。下一步的时候是在那个协议上,在NVMe-oF。

所以现在各厂商下一步竞争,是把自己前端接口协议放在NVMe-oF上面,这是一个大家目前正在忙的事情。在这个基础数字上我们也做一些基本的拆解,我们发布了第一款NVMe全闪产品,MS7000G2-Mach在SPC-1测试中打破多项世界记录:1.16控IOPS 1100万,全球排名第一;2.单控IOPS 68.75万,全球排名第一;3. 最高压力时延,0.337ms,全球排名第一。

MOFS SAN共享与分布式构建极致性能。BigHash快速Hash,采用Hash的方式对目录和文件进行查收。针对文件类型、文件路径等不同的属性参数自适应不同的Hash算法,索引速度提升100%。Unimem单一拷贝,减少同一份数据在传输和存取过程中多次在内存中copy的现象,延迟减少50%。

节点间平滑数据流动,XAN网络10/25/40/100Gb低延迟以太网、32GbPCIE网络。现在各个厂商都在做文件和对象无缝转换,已有文件系统性能下降,文件个数急剧增多不堪重负,文件系统多种格式,有不同厂家的文件系统,数据迁移业务不能中断,宏杉MOSS创新技术:文件与对象间自动转换。UDP特点,文件和对象间可自由转换,可相互备份、拷贝和移动,支持多份拷贝,文件及对象可并行工作并实现数据同步。

存储格局巨变,宏杉以创新引领变革

未来面临的存储是软件定义和分布式和传统一些存储相融合的方案,所以在整个方案上,宏杉提出了MOGS的概念,类似于云网通,把结构化数据和非结构化数据在公有云上面做无缝迁移。

总结一下,从宏杉的愿景,首先是立足于基于SAN的存储,在存储原有比较原始的存储虚拟化包括SAN的整合,构建CloudSUN。我们更多也看见整个存储平台的数据发生了结构化的数据,不仅仅是结构化的数据还有非结构化的数据。在这个平台之外,在自己的存储控制器里能够启动自己的虚拟化的概念,宏杉将来的存储是做的类似于超融合的架构,包括传统的备份会兼容。事实上来讲,十年前最热的话题,两地三中心,可能现在提得比较少了,实际上今天看到整个存储结构来讲基本上在原来数据库层面演变,将来云化在这个方案上来讲,各个厂商实施新的方式,我们也会面向未来的数据管理,提供CloudSUN整体解决方案。

另外几个方向性,国家提出新基建包括整个医疗、交通还有自主可控的方方面面,宏杉也在做相关的积极投入,新型基础设施是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。其中,在银行领域,宏杉对金融行业文件归档和检索提供服务支持。特别是疫情之后,宏杉把对象存储数据湖方案广泛应用在医共体的方案上,将来社区医疗扁平化,整个医院信息的拉通方面来讲,在对象存储和数据湖方案方法上是比较多的。而在交通强国这块,宏杉也推出了大量的解决方案,包括传统一些基于视频监控元数据管理对象存储方案,还有集成的NAS方案,也是将来的重点。