揭秘:深信服在软件定义存储上有哪些核心能力与技术创新?

按:智能是不是继闪存存储之后数据存储行业又一个大的发展机遇呢?

2019年人工智能的发展和应用进入了新阶段,对存储厂商来说,新的数据存储方案都必须有智能元素,或是让存储服务智能应用,或是让存储本身具备智能能力。

老牌数据存储公司是这样,新兴起的数据存储公司也是如此。不同的是,后者作为智能时代下应运而生者,可以更无所顾忌地迎接智能技术的发展浪潮。当然,只靠新技术是不行的,还需要有扎实的基本功才能让智能在存储上发挥真正的价值。

2019年中国数据与存储峰会上,深信服基础架构BU(新IT业务)市场总经理兼CTO陈小亮介绍了深信服基于软件定义的企业级分布式存储EDS的核心能力。我们来看看,作为存储领域新入局者,深信服是怎么做的?

以下内容根据峰会现场演讲速记整理:

新数据 新需求

陈小亮:尊敬的各位领导、各位来宾:大家下午好!我是来自深信服的陈小亮,目前在公司主要负责基础架构业务。深信服的基础架构业务主要包括:桌面云、负载均衡、软件定义广域网(SD-WAN),以及软件定义存储(SDS)等多个产品和解决方案。今天主要想谈谈存储,与大家分享深信服过去几年在存储或者在软件定义存储方面打造的核心能力和技术创新。

首先我们来看一下与存储相关的技术以及应用上的一些变化。对用户来说,过去的业务更多的是以OA和数据库等传统的数据为主,产生的大多是结构化的数据,数据规模总体不大,每年的增量可能也就几个T。而现在,随着云计算、大数据、人工智能、物联网等新兴技术广泛应用之后,数据增量非常大,使得数据产生了一些新的特点。比如数据的增长更快了,数据来源更加多样化了,对数据处理的性能要求更高了。

“新数据”的新特点对存储提出了新的需求,总结为以下五点:

第一,当数据变大变多了之后,需要有更大的存储空间,往往需要PB级空间来存储这些结构化和非结构化数据。

第二,深信服认为,未来80%以上的数据都会是非结构化数据。这些非结构化数据的特点是占用空间很大,增长非常快速,要求存储有超大规模扩展性。

第三,如今图像类型和视频类型的应用,都在往智能分析和大数据分析这个方向发展,想在短时间内获取想要的数据分析结果。而这要求存储有更快的读写和及时响应能力。

第四,数据量变大之后对整个存储底层的可靠性要求更高了。比如出现故障之后,要求存储能将海量数据快速恢复。

最后一点,我们在现在和未来都会追求数据最大化共享。我们的大数据应用,我们的AI应用,需要把之前使用的大量数据进行重新分析,产生新的价值。这就要我们关注数据的二次利用以及数据共享。

新数据,呼唤智能云存储

基于以上几点,深信服认为,未来需要用一个智能云存储来满足存储需求,需要大量利用标准的X86服务器和软件定义存储技术,来打造一个具备高可靠、高性能,支持智能管理的分布式统一存储。它不仅可以提供大容量、多种类型的存储方案,比如对象存储、文件存储还有块存储。在这个平台上面,还可以集成与数据强相关的应用程序,比如说网盘、备份、容灾、数据分析等等,简化数据分析的过程,加快数据产出新的价值。而深信服企业级分布式存储EDS就是这样的一款存储。

听深信服谈存储大家可能会有疑虑,深信服过去是做安全的,什么时候开始做存储了,做得怎么样?

其实,早在2013年,深信服就成立了独立的存储研发部门,当时主要进行软件定义存储的一个布局,并在当年就推出了分布式块存储,把分布式块存储应用到了桌面云上。2015年,分布式块存储又被运用到了超融合上。截至目前,深信服分布式块存储服务的桌面云终端用户达到了95万,超融合用户达到了5,000多家。

五年来,深信服在存储领域积累了大规模部署和实施的经验。2018年年底,深信服基于技术积累发布了独立了分布式存储产品,同时加大了在研发上的投入。目前,深信服存储业务的独立研发人员达到了300多人,其中30%是硕博学历,海内外顶尖博士20多位。这些博士给深信服带来了很多高端技术突破,目前深信服已获得的存储技术专利有68个,同时申请中的专利有30多个,成果显著。

深信服企业级分布式存储EDS四大核心能力

五年来,深信服持续打造存储核心能力,总结下来有四大核心能力。

1.海量数据存储和扩展能力

海量数据在存储和使用时通常会面临两个问题:第一是元数据索引效率非常低的问题。元数据记录了文件的各种信息,对文件进行的所有操作都会修改、增加、删除元数据。元数据传统的存储方式采用的是目录式,所谓目录式是指类似从树干到树枝到树叶的关系,效率非常低下。面对几千万甚至上亿文件的时候,访问效率非常低,系统几乎不可用。第二是数据容量扩展的问题。

深信服针对元数据问题的解决方案是打造元数据分布式数据库;针对数据扩容问题的解决方案是采用弹性扩展架构,实现数据自动平衡。

深信服面向元数据管理而设计的数据库系统,针对海量元数据管理场景做了很多技术优化与创新。这些优化主要解决了索引慢的问题,去除了在元数据使用过程当中一些不必要的IO或者资源消耗。如通过自研的一致性框架,将多次写入变成一次性写入。

这些技术优化与创新使得系统能够轻松管理一百亿以上的文件,整个索引效率提升了一百倍。过去查询一个文件可能要几分钟甚至几小时,现在可以做到秒级,就能将文件调用出来。

在扩展性方面,深信服存储EDS系统采用全对称的分布式线性扩展架构,最大可扩展到五千节点,并且扩展的操作非常简单,只要在集群里面把新的存储节点加进去,后台会自动进行数据的迁移和数据的平衡。

由于加入了智能自适应的功能,整个扩展过程当中不需要人为干预。而且,在数据同步过程中,系统能智能感知到业务的压力,自动调整迁移策略和迁移节奏,避免迁移时对业务产生影响。

2.数据高可靠保障能力。

深信服发现大多数数据保护会面临这样两个问题:第一个问题,数据保护往往是借助各种收费软件来实现,这样做首先是比较复杂,其次是需要额外购买软件,成本也比较高。第二个问题是,当数据出现故障后,平台自愈效率低,自动化程度低。

针对第一个问题,深信服用五大类38种高可靠机制来保护数据。

第一类是在硬件层面,除了精选各种高兼容配件之外,通过各种硬件监控与检测功能,帮助用户发现硬件上的一些问题。

第二类是在主机层面,由包括服务器和网络的硬件构成冗余架构,而且对故障处理和隔离都做了专项优化,可以缩小故障范围以及避免部分其他问题。

第三类在数据保护层面,有被动的保护机制,如多副本、纠删码等;也有主动的防御机制,如硬盘亚健康检测、数据巡检等,通过主动和被动相结合的方式给数据提供更高的可靠性。

第四类主要是在管理层面,使用AI技术来实现数据管理的智能化,智能地进行故障诊断。

最后是在方案层面,通过快照、备份、多中心容灾层、异地复制等功能,实现跨集群容灾建设。

五大类38种高可靠机制带来了怎样的优势呢?

首先,使得整个数据保护更加全面立体,对各个故障点都有了应急保护措施。

其次,是性价比更高,硬件方面采用的是相对低成本的标准化硬件,软件方面不需要额外购买第三方收费工具。通过软件机制和优化最终达到同样高品质数据保护方案的性能和安全级别。

同时,五大类38种高可靠机制形成了一个事前、事中、事后的数据保护框架。事前通过数据的校验、巡检提前发现数据风险并自动修复。事中通过多副本、纠删码确保数据不会丢失。事后是可以在故障之后实现数据快速修复与重建。

3.高性能,实时响应能力

在性能方面,存储也面临两个问题:

第一个问题就是当文件数量上升到几千万甚至上亿之后,性能衰减得非常厉害,访问速度非常慢。

第二个问题在于各种业务对于性能的需求不一样,为此,传统做法是购买多套不同类型的存储。深信服认为未来数据中心的趋势是只需要一套存储,它同时具备高吞吐、低时延的需求,但这样的存储需要做大量的性能优化,优化才是关键所在。

在性能优化方面,深信服做了高性能分层技术框架,框架分为数据层、缓存层,以及协议层,针对每一层的优化都有助于提升性能,最终做到用低成本的硬件实现高性能。主要的优化方向有三点:

第一点是分层本身。分层的核心其实是要智能感知业务,然后,基于业务需求对不同IO采取不同的处理机制。如果是随机小IO的话,需要先写到分布式缓存层,将小IO合并完以后再写到容量层;如果是连续的大IO,则直接写到容量层里。

第二点是分层算法。分层算法里最核心的是数学算法,深信服的数学算法博士们几年来持续优化算法,使得热力图算法的缓存命中率高达80%以上,高命中率可以大大提高效率和性能。

第三点是自适应条带化。自适应条带化是指将一个大的数据块切分成几个小的数据块,然后分散到多块硬盘里面去,最终目的是提高存储性能。

通过多项优化,深信服的分布式存储系统EDS在结构化和非结构化数据场景中的性能都有了大幅提升。

  • 在结构化数据场景中,采用三节点架构,每一个节点用两块SSD和六块,最终实现34万IOPS,数据库TPM达到40万。
  • 在非结构化数据场景中,采用同样的三节点,每个节点配两块SSD,六块HDD,百亿文件性能衰减低于5%。在实际应用中,能满足15,000万个摄像头连续摄入数据。在某个人脸识别项目中,系统中已经有了50亿张图片,即便如此还能每秒写入两千张图片,而且,写入性能没有发现明显波动。

4.基于AI的高效的管理能力

传统的存储管理需要依靠大量的手工运维,随着存储设备越来越多,管理复杂度呈指数级上升。同时,随着存储设备越来越老,维护越来越困难,故障定位越来越困难。深信服认为,未来的运维一定是往自动化智能化方向发展。

深信服第一阶段构建了全自动化运维体系,可以把平时常用的50%的操作都变为自动化任务。全自动化运维能做到什么程度呢?

比如一键智能管理功能,通过一个按钮就可以对软硬件进行全方位的检测,并显示故障原因以及解决方案。又比如可以通过全局热备空间,在硬盘出现故障时,快速恢复数据,自动进行数据修复,整个过程是全自动化完成的。

第二阶段构建了智能运维,深信服的人工智能大数据分析和统计分析团队做了许多创新,主要有以下三点:

第一点——故障预测,尤其是硬盘的故障预测。存储系统里有大量的硬盘,这些硬盘非常容易损坏,智能运维系统可以做硬盘亚健康检测,可以在硬盘没有出现故障之前提前15天识别出问题,通知用户及时更换,深信服现在把硬盘亚健康检测的准确率提升到了98.5%。

第二点——趋势分析,智能运维系统可以给出性能和容量上的规划建议,动态合理地对资源进行分配,而避免过去要靠人工计算预测的麻烦,避免出错或者浪费的情况。

第三点——智能的应用优化,不同业务应用对性能的需求是不一样的,智能运维系统可以在后台自动感知业务的特点,自动在后台进行调整,包括调整IO的路径,调整资源配置。整个过程当中不需要人工干预,使得业务体验和资源利用达到最优的状态。

今天我的主要分享到此为止,谢谢大家。