过去我们通常讨论算力的重要性,伴随数据存储等先进技术的不断演进,“存力”的概念逐渐崭露头角。华为中国政企数据存储业务总监李建祥先生在2023闪存峰会主论坛分享题为《先进数据存力,释放AI新动能》的精彩演讲,介绍了华为存储的多项领先技术、场景应用实践以及AI领域创新成果,受到业界的广泛关注。
以下为演讲实录:
大家好,今天由我和大家分享华为存储现在的基本情况以及在支撑各行业用户持续创新方面的产品和解决方案。
根据Gartner2022年全球存储市场份额报告来看,华为市场份额排到全球第二,海外一些区域虽然我们没办法参与,依然还拿到了全球第二的排名,取得这样的成绩与我们在存储领域持续创新有关,同时也跟我们踏准行业、产业节奏,以及匹配用户需求是密不可分的。
2014年,当时很多用户从虚拟化逐渐转向了资源池化、云计算,当时我们做一个创新,将常用于运行数据库或者虚拟化的块存储和用于文件共享的NAS存储融合在了一起,推出了SAN和NAS一体化的存储设备,满足中小用户混合应用,最大化节约建设成本。当时得到很多用户的认可,正式因为这类创新技术,华为存储在2016年进入了Gartner魔力四象限领导者象限。
2017年到2019年,是闪存的黄金时代,我们很多用户,逐渐开始试点使用闪存存储,当时也有行业存储厂商,比如IBM收购了TSM, EMC收了XtremIO等产品快速转型,但大部分厂商仍是基于传统架构,仅仅适配SSD盘,并未做算法和架构深度优化。
当时,华为发布了基于Flash Native的原生全闪存OceanStor Dorado产品,重构软件、算法、架构,正如郑纬民院士讲到的,固态硬盘单盘的性能与机械硬盘不是一个数量级,固态硬盘单盘IOPS性能是机器硬盘的上万倍,带宽是将近30倍,存储系统要根据固态硬盘的技术优势和特性重新设计我们的硬件、软件和算法。2019年我们发布了OceanStor Dorado新一代产品,不仅提供高性能存储,在企业用户更关注的可靠性和故障冗余进一步优化,多控制器Active-Active负载均衡,前端接口,后端接口与控制器全互联架构来支撑用户对于高可靠的要求。
今天,云计算、大数据和AI行业应用蓬勃发展,华为OceanStor Pacific系列分布式存储也被广泛使用,分布式存储以前主要用于媒资行业来存储视频、文件等带宽型业务。今天的分布式存储,一方面提供海量的空间,另外一方面要承载千变万化的应用,支持用户在AI和大数据方面持续创新。
我们的用户数据中心架构基本都并行运行着两种形态,稳态架构和敏态架构,在不同的行业、不同的用户的敏态业务比例有所不同。高端全闪提供极致的性能,极致的可靠来支撑稳态的核心生产业务,分布式存储提供高并发、高扩展的能力来支撑用户的在AI、大数据、容器等稳态业务创新。
稳态的业务,数据中心最核心的资产还是运行在稳态的架构上。核心业务系统对存储的要求是比较明确的:第一是稳定的性能,基于闪存原生的Dorado存储,在任何条件下,数据库、虚拟化业务模型都可以提供稳定0.5毫秒的延时,这是需要端到端全自研的硬盘、智能硬盘框(智能硬盘框集成了鲲鹏芯片和内存做RAID、重构等卸载),控制器,系统软件,算法协同起来,才能达到这样的稳定的延时。第二是可靠性,前端后端全互联架构支撑存储系统在任何部件、任何模块,任何控制器出现连续故障,业务仍然不中断,数据不丢失。第三是容灾的能力,对于存储来说,承载着用户的核心资产,一套存储往往是不够的,特别是一些大型金融机构,他们往往是部署了双活系统,两地三中心,甚至是环形两地三中心。华为OceanStor Dorado系列存储也是国内唯一可以做到,将承载数据库的SAN存储和承载文件共享的NAS存储合一,来实现SAN/NAS一体化双活容灾。
敏态业务,大部分是创新业务,包括用户容器化改造,分布式数据库改造,AI大模型等。
随着容器化的越来越成熟,使用越来越广泛,很多用户逐渐把一些web前端、中间件、Redis、kafka、轻量数据库等都运行在了容器上,进行了大量的容器化改造,不过有很多开发人员是不太喜欢用专业存储。
一方面,大部分的开发人员更多精力放在应用上,并不关注存储,简单认为存储等于服务器硬盘。这里存在一个误区,服务器本地硬盘可靠性是有限的,服务器硬盘是通用硬件,通常故障率在1%;另外有限的几块盘,其能提供的性能和容量也是有限的。而外置的专业存储硬盘经过深度定制微码,进行亚健康检测,故障预处理,故障率可大幅降低至0.2%。一套存储可轻松提供百万级IOPS。承载业务系统的容器需要多读多写能力,同时也需要一些文件共享,例如日志共享,共享代码镜像等,在故障切换场景,使用华为OceanStor Dorado NAS作为共享存储,可以实现6分钟故障漂移。存储共享是所有业务连续性的基础保障,只有存储是一个共享的,上层的主机 HA切换能力,漂移的能力才能够实现,使用专业存储共享能力在容器场景是非常关键的。同时NAS存储还具备多租户、权限控制,满足集群内不同业务之间的数据隔离和配额管理。所以业内已经有这样一个共识:容器最佳的存储底座是共享存储,也就是说我们通常讲的NAS存储。
一方面业务开发人员,同时也是容器使用维护人员,不太擅长存储维护操作,为了便于开发人员更好地使用存储,我们也提供了丰富的容器插件,包括CSI、CDR等,开发人员他可以不了解存储,只需要对存储提应用配置要求,备份的要求,容灾保护等级就可以,剩下的让存储自身去完成。
在信息技术应用创新走的比较靠前的一些行业,包括一些政府、金融、运营商,央国企,由于政策驱动,国产数据库替换进程要快一些,对于分布式数据库改造,用户是非常苦恼的,需要大量的业务改造,尤其是业务系统大多是多年前做的,当时的开发人员,开发团队,甚至开发公司有可能都找不到了。业务改造工作量是非常大的。
我们提供了两种方案:一种方案是现在金融行业走的比较快的,像工商银行、农业银行,数据库集中式部署,同城双集群故障隔离,一写多读,通过存储复制,实现双数据中心数据同步,类似传统成熟的IOE架构,好处数据库依然是集中式部署的,是业务部不需要大规模改造,底层通过存储复制,不影响性能的情况下数据是实时同步。另一种方案是使用我们提供的存储引擎,部署在数据库上的插件,叫参天引擎,可以实现数据库的多读多写,副本归一,我们跟很多国内的数据库的厂商正在进行合作,未来用户在切换到分布式数据库的时候,不再需要业务改造,即可实现以前Oracle的能力。
今天很多专家也都分享AI相关的一些创新,我们知道,AI大模型训练的三个基本要素:算力,算法和数据,数据存储过程,直接影响了整个AI大模型训练的效率。由于GPU资源非常昂贵,GPU资源的等待和浪费造成极大的经济损失,浙江本地我们一个AI大模型训练优秀客户分享了一组数据:如果存储发生一次事故,故障每天将带来160万经济损失,如果存储的性能不足,性能每下降10%,直接损失两个亿。AI大模型整个计算的过程,对存力的要求是非常高的:
第一,大模型训练数据量大,现在的训练参数规模已经到了千亿甚至万亿级的规模,一个数据集近PB级数据量,包括一些过程数据,归档数据,整个存力要求接近了EB级规模,要求存储能够支撑高扩展,海量承载。
第二,训练的数据源是多元的,可能来自于互联网爬虫爬来的,可能是第三方购买来的,也可能是历史库或者大数据平台抽取过来的,数据类型有文本、图片、视频,数据格式有文件,对象,HDFS等各种各样的形式。在数据归集过程,需要存储系统能够提供多协议,免数据拷贝。
第三,存储高性能,在数据归集和预处理过程中,这部分数据大部分都是小IO,希望存储提供高IOPS, 能够快速实现数据的读取。在进行长时间训练任务时,防止任务异常退出后从初始状态开始训练,保存训练过程中的Checkpoint文件,如郑院士分享的,需要每3.5个小时保存checkpoint,这时,我们不希望数据保存的过程中浪费太多的时间,要求存储提供高带宽,将PB级的checkpoint数据在分钟级就快速落盘。OceanStor Pacific高效分布式存储能能够根据IO模型自适应,一套存储同时提供高IOPS和高带宽能力。
第四,存储系统能够根据数据访问热点,数据精度自动做分级,数据生命周期管理,把老化数据从高性能资源池快速流动到大容量存储系统中,为高性能资源池减负,保持高性能能力。
以上,针对大规模的大模型训练,OceanStor Pacific分布式存储系统通过在预处理和数据归集的过程,过程数据保存过程中持续优化存储,来提升GPU的使用效率,提升整个算推有效性。
当然还有一些行业客户,比如金融行业用户,数据量没那么大,又做了一些行业特色小模型,数据量PB级规模,大规模分布式存储就不适用了,这些使用了OceanStor Dorado高端全闪来提供高带宽高IOPS。同时针对更多中小用户,我们也提供丰富AI训练硬件:深度学习存储OceanStor A310,FusionCube A3000训/推超融合一体机。
不管是是敏态业务还是稳态业务,用户出于数据保存,安全性,也出于监管上的要求的考虑,备份是最后一个必须要做的环节。华为自研备份一体机OceanProtect可以支持将传统应用数据库,虚拟化,文件,以及做创新的容器、分布式数据库,AI等数据备份下来,同时也兼容新兴的国产生态,包括国产的数据库,国产操作系统等。
最后,我想跟大家分享的是数据安全。中央网信办,公安部,国家密码局行管单位相继发布了相应的政策和法规,《数据安全法》,《个人隐私保护法》《商用密码管理条例》陆续生效,公共事业,交通、能源、金融、运营商等关基行业,按照法规,每年进行等保评审时要进行密评,其中密评三级要求数据机密性,即数据存储过程加密。在实际执行的时,国密改造推进非常困难,传统技术产品和方案并不能满足用户需求,通常有两种方式来改造,第一种是应用改造,消耗CPU、消耗内存资源数据处理过程中进行加解密,SM4加密算法算力的消耗是非常大的,实际上应用改造应用结果上看,通过软件模拟来做SM4的加密,性能损耗在40%-50%,是很多用户承担不起的,意味着用户要再额外再够买双倍资源来做数据加密。第二种,数据库加密,使用数据库加密,应用不需要再做改造,但是数据库加密也有问题,Oracle、DB2有加密的能力,但只支持AES加密算法,不支持国密。国产数据库还在百花齐放的阶段,能力还在追齐Oracle,加密上能力有所欠缺。全密态数据库也有部分国产厂商在做,但实测效果不太理想,数据库加密在处理模糊查询时,需要数据库数据读取出来,解密查询,这个过程性能代价是非常大的,在金融客户测试时发现,性能损耗90%,几乎不可用。
内生安全存储:构筑数据安全最后一道防线
我们提供数据中心内端到端的安全方案,在数据的产生和处理过程中,需要保护的核心数据库运行在TEE隐私环境,应用程序在REE标准环境中,应用程序通过安全接口传递指令传递到TEE隐私环境中,隐私环境中的数据库将处理结果返回给应用程序。整个环境在数据产生和数据处理的过程中,外部应用程序和人员是看不到数据库数据的,达成数据可用但不可见的能力,避免发生有组织的攻击,盗库事件。从主机到存储之间,开启网络IPsec/MACsec加密,保证数据传输安全。最后到存储落盘,通过存储固态硬盘进行国密加密。通过存储硬盘来做加密有两个好处:第一,通过芯片加密,加密效率比通过CPU软件模拟效率要高得多。第二,一套存储一般配几十块或上百块硬盘,意味着有上百颗芯片同时在做加密处理。实际测试的效果来看,通过硬盘加密,对性能的影响5%以内,基本可以忽略。通过TEE隐私计算以及存储加密卸载,数据产生、处理、传输、存储、销毁端到端的全流程数据安全保护,满足监管要求。
同时,我们也提供防勒索的能力,勒索病毒善于伪装、变种频繁,往往使用零日漏洞、钓鱼邮件、内鬼攻击等方式进行入侵,通常还会潜伏数周到数月。网络层以“进不来”为防范目标。而存储作为数据的最终载体,可以始终在第一时间感知勒索软件对数据的修改行为,通过侦测分析、安全副本、及时恢复,确保病毒“进不来、改不了” ,数据“可恢复”,构筑数据安全最后一道防线,解决很多用户不能说的痛楚。
呼应一下闪存峰会主题,目前国内没有机械硬盘产业的,我们也希望跟硬盘厂商一起努力,利用闪存存储天然的高性能和低故障率优势,实现国内存储领域弯道超车。做好我们的国产存储,做先进的存储,做全球领先的存储,一起共勉,谢谢大家。