12月9日,在DOIT传媒与存储在线联合主办的2016中国存储峰会上,北京达沃时代科技股份有限公司副总裁雷迎春发表主题为“新IT,新存储”的精彩演讲,他阐述了在新IT时代下,未来存储市场的发展趋势,并详细介绍了达沃时代自主研发的分布式存储系统。
以下为雷迎春演讲实录:
经过了2016,有一些体会。总体来说,存储行业的大趋势是从第二平台向第三平台转移,第二平台有PC机、客户端服务架构、局域网和互联网。第三平台有云计算、大数据、分析和社交。转移过程当中整个信息技术价值已经从计算和业务驱动为中心,转向到以用户和数据为中心。
所谓”新存储”,第一是指分布式存储,第二是多种访问协议,第三是以闪存为中心,第四,应用定义。其实我们来看同样阵列也好,存储本身都是使用英特尔平台。硬件存储会用专用或定制化硬件,他们可能提供高集成度接口,可能会用定制化的东西,服务器里面会增加BBU,或者外面增加UPS,或使用好的服务器,硬件服务器主板会提高要求,通常情况下使用硬件存储。从软件上面来说,为了支撑硬件存储,会在软件上做很多工作,比如说内置分配,电源一起整合,每次申请内存都会看有没有足够电源。
分布存储可能会使用商品化服务器,比如Dell XC服务器。分布式存储更相信自己的软件,对系统的可靠性,对性能的保证。我认为分布式存储和阵列本身最大一个区别,应该是不同软件的哲学。
阵列里面一个进程只能看到直联的存储资源,所有资源是属于硬状态,当一个故障发生时候会发出一个信号,说磁盘故障,只能看到本地资源。而分布式存储不一样,每个介质有独立存在,整个OSD向Metosrv汇报,OSD存储之前呈现出抽象的状态。Metasrv不能直接看见存储资源,其上的Objects是软状态,存储故障可能在下一秒发生。软件协作是先天的。
达沃是分布式软件存储提供商,主要两个产品部署,一个是超规模,另一个是超融合,面向单数据中心和多数据中心,硬件平台用的商品化硬件。所以在IT发展上,看自身如何提供多协议和闪存与定义来适应存储要求。
达沃自主研发文件系统,比较受Google GFS影响,主要数据是元数据服务+对象存储服务组成。标准POsix语义。最开始元数据服务是HA,在2013年左右变成了三个节点,最多我们做了6个节点,在实验测试,我们做的这种分布式一个元数据,10亿级规模。存储软件比较早是以磁盘为中心,整个存储面向磁盘的,闪存为辅。
这是我们的一个软件结构,可以看到整个元数据设计比较复杂,实现文件系统的语义,同时管Objectmetasrv本身。整个来说元数据非常重,因为HA和存储HA是独立,自己要去实现存储语义以外,自己来做很重的事物,是分布式的东西,近似于在做一个分布式数据库的工作。右边我们整个I/O受元数据一个驱动,磁盘并不是说把简单把磁盘用I/O换过去就很好的I/O了,I/O模型并不能充分使用这个闪存,有必要去升级一下我们软件的结构。
这是达沃2.0软件结构,今年突然一下发现我们本身从10亿级规模到千亿级规模本身,软件数据规模太大了,怎么会一下子有这样的需求,用户把大数据提进去了,现在来说我们的4、5个项目千亿级项目本身,确认达沃软件要升级的事情。第二,各种应用并存,需要多种协议支撑,还有数据百亿级的数据化,生产型和非生产型在一个平台上,因为不可能迁移,有这样一个需求,以闪存来支撑整个系统本身。
达沃1.0有中心,怎么将其变成全分布式多中心,我们把软件分成了独立开出一个层次,在上面怎么来用上层使用。整个来说2.0是这样一个背景。这是我们对象存储一个结构,因为是中心存储,实现全对称元数据,管理对象状态,随着系统大规模增长,也不会担心状态受限于这个规模。
I/O第一次访问元数据,第二次可以直接跳到对象存储上面。对象存储本身支持混合存储或者全散,全散支持消重和压缩。这是我们的一个I/O框架,称为ROWS,独优化和写顺序。两种配置,混合存储和全闪存存储。ROWS(Read optimally,Writesequentially)读写分离,性能层服务绝大多数I/O。缓存,分离、压缩、消重。顺序写,到性能层的异步I/O写,到容量层的异步I/O写,读优化,自缓存层的同步I/O读,自性能层的同步I/O读。
我们这一块本身实现了缓存、分层支撑性能东西,可以看到几个配置,是有全散配置等等。
达沃的全分布式文件系统属于千亿级规模。这是我们分布存储最基础、文件存储地方调用对象存储的I/O,对象存储库把一个文件I/O变成一个对象本身往下扔,主要做的事情是File到Object的映射。元数据整个工作原理这样一个事情。每个MDU里面组织方式有定长部分,还有变长部分。通常来说每个节点分配8个MDU。我们MDU本身分散不同的MDU,名字空间动态分区不是基于子树,随机深成不同的MDU里面去。整个来说我们事物两种思路,一个是MDU思路本身,还有跨MDU,还有涉及超级大的目录操作,或者以千万单位的目录,跨MDU,整个操作都是事物型的。
在统一存储方面,由于达沃是做分布式文件系统出身,自然而然用文件方式管理资源。可以看到File Store的名字空间,还有Blob Store的名字空间,还有Disk Store的名字空间。BLob Store是File Store的简化。这是我们分布式对象存储,我们把Blob分成1K,所有1K放在Object,所有1K在一个地方。删除一个对象,只需要植一个位就可以。
磁盘比较简单,只是一个大块映射道不同的Object上。我们未来会做跨中心,还有混合云方面的工作。我们觉得这些年的体会,首先是存储需要多协议访问,一个存储池既需要通过NFS、SMB 、ISCSI 等等,还有数据的多协议访问,同一个数据可能需要被NFS访问到,同时需要被Web对象访问到,还需要Hadoop,未来随着这种流处理,在线处理分析一定是一种常态。所以我们认为本身要做出数据多协议,不仅是存储资源。
第二,规模和性能,全分布式系统本身是一个解决规模的问题。而闪存这边我们认为好的我们叫现成模式,或者通过I/O通道模式本身,才能把闪存发挥好,而不是简单的替换一个介质。
最后一个是应用定义,我们觉得超融合里面存储本身有一些人用的Lang,超融合里面经常给VM本身设定他的快照或者迁移,很多时候需要存储做配合的事情。