按:12月3日,由百易传媒(DOIT)主办的2019中国数据与存储峰会(DATA & STORAGE SUMMIT)在北京盛大开幕,与会专家对新一代关键存储技术趋势及数据创新应用进行了热议,大家一致认为,数据智能将成为数字产业发展的关键推动力,驱动中国和企业数字化转型。
峰会第二天,应主办方邀请,深信服杨欢EDS运营总监杨欢以“深信服软件定义存储EDS应用与实践”为题发表主题演讲,回顾了深信服的存储历程,并从智能视频监控、数据长期保存、数据中心统一存储和数据备份数据强应用相关三个场景介绍了深信服软件定义存储EDS应用与实践详细内容。
以下内容根据录音整理,未经本人审定。
深信服杨欢EDS运营总监杨欢
杨欢:各位专家、领导,大家上午好!我是深信服的杨欢,目前主要负责深信服软件定义存储相关的工作,今天很荣幸在这里和大家分享深信服在软件定义部分的应用和实践,聊一聊深信服从安全起家,什么时候开始做存储,为什么转向存储,以及目前深信服看业务系统和整个IT信息化建设的变化。
云计算、大数据、AI等新技术驱动数据存储变革
先看一下技术和应用的变化。传统的信息化建设应用更多是OA、CRM、ERP业务系统,产生的更多是结构化数据,数据规模并不大,数据量每年增长也就几个TB。现在,新技术、新平台得到广泛应用,比如云计算、大数据、人工智能、物联网、人脸识别等,所以在新兴的技术驱动下,存储需要面对云、大数据、Ai这类大规模应用及数据场景。
在这个时代,数据产业面临四大核心挑战。
- 数据爆炸式增长。
根据IDC的数据数据统计报告,2020年数据体量将达到44ZB,2025年数据体量将达到164ZB,而且,大数据、AI这类技术会让原有数据产生新的数据,进一步放大数据体量。因此,存储系统必须满足高扩展性,可提供PB级的结构化、非结构化的海量数据存储能力。
- 数据的种类来源多样化。
现阶段云业务的快速发展,一套存储平台支撑成百上千的业务系统是存储必须面临的挑战,存储系统需要同时提供块、文件、对象多种存储服务,才能满足多元化业务应用的需求。
- 数据的处理性能能高。
大规模图像业务、视频应用现在都在往智能分析、大数据分析这个方向发展,这就要求后台存储具备有更快的数据读写和访问实时性,比如提供百万级甚至千万级IOPS、提供GB级甚至TB级吞吐带宽。
- 共享及挖掘数据价值。
现在以及未来,数据都在追求全局最大化共享,比如大数据或AI应用需要把一些之前扔掉的数据重新拿回来做分析,产生新的价值。因而,存储系统必须提供统一的存储资源平台,可实现数据的实时共享以及价值挖掘。
基于以上四个层面的业务变化对于存储产生要求,深信服早在2013年就开始了软件定义存储的布局。
深信服的存储历程
说到存储,大家肯定有疑虑,深信服什么时候做存储的,做得怎么样。实际上,我们在2013年就成立了存储研发部门,为各个产品线提供技术模块输出,推出了分布式块存储,在2014年先应用于桌面云,2015年又应用于超融合,到目前为止分布式块存储服务过的桌面终端用户数量超过85万个点交互,超融合客户数量超过5000家,在这过程中积累了大规模实践经验。
经过长时间验证和积累包括交互的经验,深信服对分布式存储技术积累已经达到了非常深的层次,在很高的研发投入之后,2018年年底正式对外发布了独立的软件定义存储,也叫EDS,目前分布式存储产品线有专职研发人员300人,30%是硕博学历,其中海内外顶尖博士20多个,这些人在这几年做了很多高端技术突破,并申请了技术专利,已获得的专利有68个,申请中的专利有30个。
深信服正式对外发布的分布式存储EDS,有企业级分布式存储EDS与智能云存储平台,分别匹配小容量小性能,小容量高性能,不同场景的应用需求,利用软件的交互能力,可以做一些便捷的软件交互,只要有企业标准的X86服务器就可以搭建。云存储智能解决方案,通过标准的X86服务器构建了资源池,插不同类型的硬盘资源,通过虚拟化能力,这个库可以进行逻辑的区分,分别匹配不同的业务系统,文件、对象等等,解决整个数据中心提到的四种能力。
深信服分布式存储EDS服务四大场景
深信服分布式存储EDS服务四大场景,分别是智能视频监控场景,数据长期保存场景,数据中心统一存储,和数据备份数据强应用相关的场景。
1)应用场景之一:智能视频监控场景
现阶段平安城市智慧交通智慧社区等等这一类项目非常多,为什么称之为智慧,很大一部分核心原因里边融入了AI技术,现在聊的最多人脸识别大数据分析等等,这种场景下区别于传统的视频安防项目,面临一些全新的挑战,分别有三个。
其一是容量激增,核心来源于三个,视频摄像头质量越来越高,原来720P,现在可以看到很多高清摄像头产生的数据容量越来越大,一个城市里边摄像头少则几千,多则几十万,如何存储下去?这是安防平台建设里面最需要考虑之一,其二是海量图片,刚才提到了AI安防智能监控这种场景,核心就是人脸识别图片高性能分析处理。举个例,在一个人流高峰场景,一个摄像头每秒拍五张图片,城市里边不少于三千个摄像头,保存周期一到三个月,一年时间里面达到几十亿张,如何把这些图片存储分析处理调用,是存储介质信息化建设所要考虑的。第三是超大集群。视频监控保存三十天九十天,意味着所有数据要删除,反复操作对硬盘、对整个集群安全可靠也带来全新挑战,故障率激增,故障情况下业务系统如何解决、对于业务系统没有影响,也是存储平台搭建重要考量因素。
- 分布式架构解决扩展难
为了应对海量数据的高速增长,深信服提供了相应的解决方案,全对称分布式架构是主流选择。深信服可以最小3节点起,最大可扩展到5千节点,高达EB级存储容量。扩展时也很简单,只需要将新存储节点加入集群系统,不需要过多配置、也不需要人为干预,后台会自动做数据迁移和平衡。同时,我们增加了智能自适应功能,在数据同步过程中能够感知业务压力并自动调整迁移策略、避免对业务产生影响。其特点是高扩展性,分布式天然就有这种高扩展性的优势,我们现在EDS可以对外提供5000节点超大集群,同时可以提供EB级大容量的存储空间来满足这样一个存储需求,EB级意味着1080P摄像头承载十几万摄像头存储能力,扩展的时候拥有自动平衡这样一个能力,加新节点的时候无须人工干预,没有额外多余的操作存在。
- 独创数据库解决海量小文件
海量的小图片处理是存储面临最大的挑战,也算是存储业界公认的一个难题。其核心难点在于两个:元数据管理和数据本身。
深信服创新研究院目前有60多位国内比较顶尖的研发博士,开发的数据库提供了四个能力,第一个高性能,因为我们首先把这个数据库灌装到每一个节点SND界面,优秀的介质加上高性能扩展性,实现用两核的吞吐实现17核的吞吐性能。第二点强一致性,源数据重要性不用多说,深信服在数据库层面将每一个源数据都以三副本的形式,通过(英)协议做成强一致性。第三高可靠性,分布均匀在每一个节点当中,对于源数据安全可靠性不受丝毫影响。第四高扩展性,基于分布式架构做的设计,整个集群扩展的时候,我的SND节点越多,性能越高,能够满足未来无限增长小数据处理。
对于数据本身的处理机制,数据小数据可能4K、8K,这一张图片如果存到存储里边不做任何处理,一个4K数据可能占一个条带,可能出现性能衰减一系列的问题,深信服利用分布式缓存的技术,将所有小数据做了一个合并有一个业务感知,上层下来的数据小于64K的数据,在缓存层面做一个累积,累积成大块连续性数据之后,才会写入到SSD当中,可以充分发挥HDD连续写的性能。上面写的大块数据,意味着不会放到条带当中,会直接刷进HDD,缓存高性能高价值的优秀资源,从而可以解决百亿小文件的性能指标,在百亿读写里边性能衰减不会超过5%,这个性能在业内还是比较好的一个数值。
- AI运维 智能化集群管理
第三个问题是如何对巨大的集群高效有效管理。
深信服融入了一些AI运维的机制,创新研究院开发了一个组件模块,通过第三方的数据,包括自己本身测试数据和生产数据所得到的一些错误,形成的错误代码(错误代码一共有1800万样板数据),经过52万小分钟这样一个训练获得的模型,经过不断的调优不断的修整,最后应用到整个存储集群当中,可以发挥价值。第一个就是大家常说的亚健康检测。整个存储系统里边最容易坏的就是硬盘,硬盘坏之前其实有一些预兆的。管理一个超大集群视频监控存储集群,如何快速找到一块亚健康的硬盘,靠人工不现实,人工系统基于模块,收集到的硬件信息,响应延迟变高,抖动变大等等,这样一些数据,通过模型训练以后可以对某一个节点分析。一旦发出预警之后,存储系统会自动进行甄别并且进行相应的处理,比如上层写数据,不再往亚健康盘上写数据,同时做数据迁移,将原有数据分散到其他磁盘里去,解决这样一个亚健康盘所突发故障带来的磁盘影响,这种称之为主动防御技术,按照主动防御技术,加上大家都有一些副本冗余机制,可以提供六个9安全可靠。通过一个可视化的界面,可以便捷清晰直指损坏磁盘和损坏故障点位置,出具相应的报告,提供相应的运维建议,帮助做这种运维的管理。
基于以上的主动加被动的防御机制,在整个超大集群的管理方面可以说非常的便捷地解决了存储的管理难度。
讲一个简单的案例。
珠海公安建立了人脸识别的项目,监控设备有三千个摄像头(两年之内会建到三万个左右),交互的容量3.5PB,视频通过监控平台到存储平台里,通过GPU解析平台,解析出人脸图片,传给大数据平台做相应比对分析,最终返回业务系统进行业务应用,如人员追踪、反恐这样一些操作。目前这个平台在客户应用半年左右,数据容量达到几十亿图片存储,性能没有任何衰减,获得了客户一致好评。最大的优势就是说未来客户扩展的时候,存储集群可以扩展,底层所有资源池可以进行分区,相互资源不干扰,可以实现统一运维管理,对于整个客户超大集群运维使用,包括价值效率都有很高的提升。
2)应用场景二:数据长期保存场景
分布式在场景里面有体验,海量数据长期保存,最大特点就是保存周期特别长。来源于很多因素,比如说医疗数据,电子卷宗都得益于法律法规要求,这么长的周期保存,同时还会随机调用。如何解决这个问题,是客户当前考虑得一个问题。用磁带库,蓝光光盘存下去,随机调取卷宗的时候,要重新寻找数据,对于客户来说效率没有那么高。
- 超长周期数据保存
长期保存意味着有一定静默错误的风险。
深信服EDS通过4个能力实现了数据的超长周期保存。
第一个有自动数据重构的能力,基于防范整个生命周期中磁盘故障,磁盘故障之后如何进行快速修复,EDS存储系统,可以在故障的时候自动的出现,利用其余磁盘剩余可用空间,将损坏的数据存储进去,它的效率可以得到大大提升,可以实现1T30分钟左右的效率,无需人工干预。
其二数据自动的平衡,平衡很大的原因在于随着集群使用周期越来越长,一定会往里加一些新的硬盘,新加的硬盘就是空白盘,空白盘的空间要充分利用,存储系统也可以自动甄别,将整个数据进行重平衡,保证每一个节点,每一块磁盘高效利用,避免造成单点故障。
第三个数据自动迁移,更多解决老旧设备替换问题,这些问题在传统上比较痛的,正常情况下一个硬件生命周期三到五年,五年以后整个存储集群做一个更换。传统阵列做更换的时候要做数据迁移,同厂商还好,异构厂商还要找第三方服务等等操作,时间成本财力成本风险成本都会大大提升。这种情况下利用分布式架构或者EDS平台可以实现把某一个新节点插入以后存储系统的迁移,将老节点抽离出来做一个单独分区,其他的业务应用做高可靠的保障。
最后是全生命周期迭代,要保存三十年五十年甚至更长的时间,意味着这个集群必须实现全生命周期无停机的迭代,磁盘硬盘迭代的时候,磁盘可以实现插拔的方式,对整个集群没有太大的影响,可以实现生命周期的迭代,可以保障整个数据长生命周期的存储需要。
- 百亿级海量文件,高效检索
大家知道,比如保险行业的保单,生命周期真的是超长,可能一辈子都用不到一回,对保险公司来说保单数量日益剧增,这样数据量如何存储下去,传统是NAS,数量越来越庞大,当你想找到某一个文件,时间越来越长,大大影响保险行业对客户体验效果,运维管理也很复杂,如今利用这种海量小文件、小对象这样一个能力,通过对象二层结构,加上对象标签的锁定,自定义的设计,可以实现毫秒级数据检索,保障用户随机检索信息,可以大大提升,虽然是长周期保存,也可以高效检索。
- 3级保障解决静默错误风险
不知道大家对静默错误理解有多少,可能就是基于这四个层面产生一些静默错误问题。静默错误对于存储系统来说无感知的,刚才也讲到数据写入存储的时候,存储认为一致的正确的没有问题的,静默存储存进去之后,不用这段时间发生错误,发生错误以后,存储系统会发生一些故障风险,整个集群通过三级保障体系,实现静默错误长期无忧的保存。在数据落盘之前必须保证数据没问题的,数据写入存储系统以后,会启动数据定期巡检,整个集群当中,业务压力不大的时候,半夜某一时刻对整个存储集群的一个数据进行端到端的校验,校验某一个冗余数据是否有问题,如果有问题会立即校正,如果没问题会反馈。如果发现问题,存储集群会告警,会自动重建,重建以后会进行一个提示,本次报告清单,它的大致情况是什么样子。通过三级保障体系,可以有效保证存储集群长时间保存的时候静默错误带来的数据安全风险。
EDS通过3级保障解决数据长期保存带来的静默错误风险。首先,静默错误最大的问题在于已经写入存储系统的数据,因外界因素造成数据损坏。而此时存储系统无感知。只有当读到此数据时才会发现数据不可用。如果存储系统恰巧此时发生硬盘故障,且数据是损坏数据的冗余数据,那么,此数据丢失将不可恢复。
EDS通过3级逐步实现了数据安全保障。第一,强一致性落盘,所有落盘数据必须进行一致性校验,保障数据无误。第二,数据巡检,EDS可根据策略实现数据巡检功能,定期进行数据的安全扫描,比对校验。确保数据安全可用。第三,自动修复,当EDS发现数据损坏时将会出发自动修复机制,可实现1T/30min的修复速率,快速修复缩短数据安全风险。
对于数据长期保存的用户来说,第一个是法院,第二个是医疗。在青岛市法院,一个区县法院一年受理五千个八千个案例,每年数据增长量在几十TB以上,保存三十年五十年的时候,数据量无限增长,如何提供高扩展性和高可靠性,深信服提供了三台1210,可以满足客户系统对数据存储系统容量的需求,未来增长的时候可以插盘插节点,高效满足客户对于未来存储需求,满足电子卷宗的同时,这套平台可以提供块存储提供文件存储,客户未来有什么新业务上线,某个业务系统发生问题之后,可以无缝迁移,未来整个客户里面一套存储平台,解决所有的数据存储问题。
3) 应用场景三:数据中心统一存储
大家最熟悉的、可能很多人一直都在致力于进行维护的就是数据中心,数据中心统一存储。所谓的数据中心统一存储更多起源于云数据中心,云数据中心计算层面实现资源的池化,存储层面目前很多的解决方案都是一台一台独立的(英)设备,意味着就是一个数据的独立孤岛,并没有实现整个存储层面资源池化,对于业务系统分析之后,发现了四个需求。
- 高兼容:兼容多平台,多存储协议
兼容对于数据中心统一存储至关重要。
需求多元化,意味着上层业务系统变多了,对存储协议要求变的越来越复杂,这边数据要块,这边共享文件协同办公需要文件,视频监控网盘需要对象等,传统的方式一台一台独立建,现在一套存储解决,存储平台必须提供刚才说的这种协议。多厂商,有很多客户建设区间不同,想进行统一管理,存储发现结合不了,因此必须兼容多虚拟化平台,满足客户对多虚拟化的要求。
EDS云存储平台可实现主流虚拟化的全兼容。首先EDS通过标准的X86服务器构建统一的存储资源池,通过逻辑分区能力,可分别划分不同的逻辑资源池,此池用于对接上层业务服务。通过协议网关层,EDS可分别提供iscsi、nfs、CIFS、s3等多种协议接口,满足业务系统对于块、文件、对象等多种存储服务的需求。另一方面,EDS通过restful可实现第三方云管平台的对接,实现集群的监控运维。真正实现一个数据一个界面监控管理。
- 高性能:分布式、智能合并等机制提高IOPS和吞吐
接下来我们谈谈性能部分。
过去,存储性能主要谈的是IOPS,但在云数据中心的环境下,存储必须同时具备高IOPS和高吞吐,要做到这两点往往成本极高。而深信服EDS可以用高性价比方案来实现,首先EDS是分布式架构,通过多节点同时提供存储服务,天然就比传统存储有高吞吐的优势。其次,为了提高IOPS,我们研发了智能分类分层数据处理机制,这个技术的核心是智能化的业务感知,业务系统运行过程中,会产生随机小IO、也会产生连续的大块数据,深信服EDS会通过独特的存储算法,对不同读写要求进行分类处理,比如随机小IO,优先通过内存和SSD进行加速,而连续大块数据直接写到普通硬盘上,最终通过这种IO路径优化方式,可以将随机读写的速度提高3-5倍。上图有个实际的例子,深信服用3节点的2U存储设备,性能就可以媲美传统中高端全闪存储,建设成本至少节省一半。
- 高可靠:数据冗余保护机制+多重主动防御能力
传统存储的可靠性一般是通过冗余机制来做的,比如双控、RAID、热备盘等,分布式存储有多副本、纠删码、快照复制等技术,但这还是相对被动的保护方式。
深信服EDS除了传统冗余之外,有一个主动防御机制,在整个存储集群运行过程中进行实时数据分析监控,增加了主动防御能力来保障可靠性,这里主要利用人工智能技术,实时收集各节点的信息进行综合分析,可以做到在故障发生之前就能预判软硬件的风险点,及时预警并提出修复意见。可以通过15天效果发现故障硬件,发现率达到98.5%,错误发生概率非常低,可以保障客户系统故障发生来临之前可以进行有效的安全防护,避免突发故障对于整个集群的稳定可靠一个安全影响。
举个例子,硬盘属于易损件,在出故障前会有一段时间的亚健康状态,处于亚健康状态的硬盘,业务依旧可以运行,但体验、性能比正常要差一些,比如频繁抖动、时延变高、温度升高等,深信服EDS可以通过AI检测系统尽早发现寿命即将完结的SSD磁盘或者出现慢盘的硬盘,并及时更换,从而保证整个存储集群的健康状态,防患于未然,避免突发故障造成的业务访问中断。
4)应用场景四:网盘/备份数据存储场景
网盘和备份在深信服归类为于数据强相关的应用场景,这就是刚才提到的第四点做数据价值挖掘、数据价值产生这么一个场景,其核心在这种场景里都是对于数据安全防护。
在数据化建设数据化转型过程中,这一部分客户需求变成刚需,有很多客户说迫切上网盘,传统的建设方式都是备份买网盘一体机等等设备,但这种方式会造成什么问题呢?一体机和真正主存储之间又是数据孤岛,无法实现数据全局共享,无法实现数据全局应用,造成不必要的麻烦,对其他平台会造成连续阻碍。
EDS在此利用容器技术,在分布式存储资源中划出部分X86计算资源,进行系统封装。将备份软件、网盘软件直接封装到EDS存储平台中。假如客户对于此类场景有需求时,只需像使用app 一样进行授权激活即可轻松上线。此方案,不仅可以帮助用户轻松的建设网盘应用、数据备份等,同时保障了数据的一平台化。对于后续的数据管理、共享利用都会更加的便捷高效。深信服EDS深度融合,集成数据应用,不仅仅发挥数据价值,同时立足存储,关注数据的安全和可用。
这是我们刚才架构图,底下用都是标准级服务器,除了传统以外,还有大量的空间还有大量的资源,基于此起了容器技术,向里面进行封装一些和数据强相关的网盘归档备份或者简单的数据仓等相关应用。这些应用部署以后,客户有需求存在的,只需要像手机APP一样进行激活可以实现安全服务数据服务,便捷帮助客户进行挖掘数据的使用。
网盘、备份提供应用的同时,底层存储依然是一个大的资源池,资源池可以保证客户数据再一个大平台里,可以共享可以利用。
深信服在融合应用的时候,始终关注发掘数据价值,同时立足于存储更加关注数据的安全和可靠。
我今天的演讲就到这里,谢谢大家。
编后:本次2019中国数据与存储峰会(DATA & STORAGE SUMMIT)为期两天,包含主论坛、CIO高峰对话,以及大数据、闪存系统、分布式存储、第二存储与容灾备份、超融合与云存储、人工智能、数据创新与安全可控、容器创新与应用、SCM第五代存储与闪存控制器等十大主题论坛,超过100场的专业知识分享。初步统计,本届峰会吸引了来自政、企、产、学、研、媒体等各方参会者约2000人,在线直播观看观众再创新高,超过10万余人次。