四面出击,破除困扰HPC的存储魔咒

随着企业数字化转型和智能化升级,企业正面临数据快速增长带来的存储和计算挑战。面对无人自动驾驶、工业AR/VR等实时性较高的智能化应用场景需求,企业依赖计算性能更强、网络延时更低、数据处理更快的HPC平台。同时,要实现TCO最优,就必须排除任何可能的性能瓶颈,保证计算、网络和存储在性能上实现完美匹配。

HPC产业进入算力与网络的充裕时代

近年来,随着CPU、GPU等芯片性能的飞速提升,多元异构算力加速融合,HPC产业迎来了长足发展,不仅单位性能成本大幅下降,算力的快速提升使其能够应付不断增长的数据分析需求。

与此同时,为支撑日趋复杂的AI应用对于低延时、高带宽的网络需求,HPC互联技术也在快速迭代更新。目前,100Gbps IB FDR技术已成为主流HPC互联技术,比传统10Gbps以太网速度快将近10倍。随着200 Gbps HDR IB技术方案的发布,面向HPDA、HPC-based AI等HPC场景的网络支撑能力必将进一步提升。

HPC向HPDA演进,“存储墙”日益显现

随着5G、大数据和AI等新兴数字化技术融入到传统行业,在数字化转型和智能化升级过程中,企业数据量迎来了新一轮爆发式增长。企业依赖HPC提供大数据分析,以支撑高效的业务分析决策。同时,面对大量AI应用场景落地,计算过程必须支撑低延时、高带宽的应用需求,对HPC存储性能带来了巨大考验。

IDC 预计到2021年,全球HPC存储市场空间可达148亿美金,其中新兴的HPDA和HPC-based AI场景将以年化17%、29.5%的增速快速增长。以HPDA、HPC-based AI为代表的HPC应用新趋势,既给HPC产业发展带来了新的机遇,同时也带来了新的挑战,总结来说,HPC存储面临四大“存储墙”:

·首先,CPU计算能力仍然按照摩尔定律成倍提升,IB互联技术通过不断迭代更新,持续高效匹配算力增长带来的传输需求。但这些年,存储效率的提升并未跟上计算与网络的步伐,多数存储架构还是面向一类负载打造,面对日益复杂的负载冲击,显得捉襟见肘。

·其次,传统的HPC存储主要基于文件协议打造,当HPC开始与大数据、AI负载融合时,如何让数据能在不同的分析应用间更便捷的调用成为当务之急。如何实现跨协议访问,是构建HPC必须解决的存储问题。

·第三,随着数字化转型的持续深入,以及AI应用场景的大量落地,很多企业现在一天产生的数据量就可能达到几十TB,比如在自动驾驶系统研发过程中,每车每天产生的数据量就能达到64TB。海量的数据即需要存储系统快速的分析处理,也需要消耗大量的存储空间和机房空间。未来企业的数据量将不可避免的从PB向EB级跨越,而如何更好的控制存储成本,实现最优的TCO,将是HPC存储应用必须找到的解决方案。

·第四,在Hyperion Research最近进行了一项全球范围的研究根据调查,高性能计算存储系统的平均故障频率为每年9.8次。从存储系统故障中恢复的平均时间是1.7天,平均停工时间花费为每天12.7万美元。因此,打造高可靠性的HPC存储,是HPC产业发展的重要支撑。

归纳起来,HPC产业发展面临存储性能提升过慢、异构存储难以整合、海量数据的存储优化管理以及打造高可靠性存储系统的四大瓶颈问题。

四面出击,打破“存储墙”

如何推倒HPC产业发展的四堵“存储墙”,充分释放数据潜能,成为了当下HPC产业发展的重要课题,也是向HPDA演进升级的必由之路。

首先,最迫切需要打破的是混合负载的“性能墙”

通过笔者和不同行业客户的沟通发现,单纯从带宽或OPS的负载需求来说,当前产业是有完善解决方案的。比如某油气行业客户在地震资料处理环节,采用了Dell EMC的Isilon分布式文件产品,这个环节特点是数据量大,带宽需求高,这是Isilon的强项;而在随后的地震资料解释环节,数据量仅TB级,但OPS需求可达数十万,Isilon就没法应对了,这时,他们则用了NetApp的FAS存储。这样带来的一个问题就是,管理越来越复杂,还得做数据迁移也耗时费力。

这是一个比较典型的例子,其他行业还有很多,因此谁能先解决混合负载这个问题,对产业必然是一次大的推进。

其次,打破多应用访问时数据快速流转的”效率墙”

前面讲到了,HPDA、HPC-based AI应用带来了除文件以外的HDFS、S3等多种协议访问需求,其实即便在传统的HPC负载下,业务流程中数据汇聚、预处理、分析、发布所采用的访问协议也不尽相同。因此常看到一些用户,系统中文件、对象、大数据多套存储来承载不同的业务,非结构化数据Silo问题相比结构化数据存储更为突出,只是一直没有好的方案。

怎么解决,我认为多协议互通是一剂良药。

第三,打破海量数据保存的“成本墙”

成本的构成多种多样,除了存储本身的采购成本,还有维护运营的成本。前者,需要开发更高效的冗余算法,用更少的介质存更多的数据;此外,还需要根据数据热度决定保存在什么介质中,当前这个动作通常是手动的,比如把海量基因数据定期从文件存储导入到磁带库和蓝光存储中,未来,自动化的数据流动不可或缺。还有一个方向是更高密度的设备,由于机房空间租用成本的高昂,这一点在欧美市场的需求更加迫切

第四,打破系统长稳运行的“稳定墙”

随着数据量的增长,单次数据分析的周期越来越长,一旦出现故障,轻则影响分析效率,重则导致数据丢失,影响分析结果的准确性。并且,这些数据都非常珍贵,比如油气勘探,需要人为制造一次小规模地震来获取源数据,自动驾驶场景,则是数十辆测试车辆持续不断地在路上跑获取数据。这些数据宝贵,且难以重复获取。

为避免HPC存储可靠性问题随规模增长而加剧,存储应具备自动从故障中恢复的能力,排除单点故障。同时,人工调优耗时、复杂且容易出错,存储系统需要具备自我调优能力,系统一旦经过调优,就可以优化绝大多数HPC应用的性能,而不需要随着工作负载的变化而重新进行调整。

在服务器、网络技术日趋同质化的今天,存储已经成为构建HPC平台差异化竞争力的关键。作为HPC的数据底座,未来谁先解决这四大难题,谁就能在HPC存储产业的下一波浪潮中,占据先机,并且加速推进HPC产业迈向新高度。

来源:网络