解放战争三大战役之中,一般认为最重要的是淮海战役,其实应该是辽沈战役,正是因为辽沈战役获胜,解放军快速入关,才有平津战役的胜利。
如果说辽沈战役是三大战役的关键,那么锦州之战则是辽沈战役的重中之重。如今,数据创新时代决战,关键在于数据;而数据的关键在于海量数据存储和处理,其中的关键又在于冷数据。类似锦州战役重要意义,需要对冷数据给予高度重视。
冷数据存储和处理真有如此重要意义吗?
冷数据的“热”时代
根据IDC预测,全球年新增数据量2023年将超过100个ZB, 2025年将高达达175ZB。以视频行业为例,一个1080P高清视频摄像头,一天将产生45GB数据;一个视频网站,每天所产生数据量可达TB以上;在医疗卫生领域,每个基因测序DNA样本数据为560GB,中国每年有1800多万癌症病例,如果全部使用基因分析技术,每年就会产生10PB数据。此外,全国有3万多家医院,一家三甲医院每年会产生20TB左右的影像数据,数据爆炸式增长之势令人惊叹,随之而来的是前所未有的数据存储成本支出,根据计算,采用目前市场主流8TB硬盘,存储175ZB数据则需要230多亿块,每块硬盘按照单价1300元计算,总计需要30万亿元,大约相当于2019年中国GDP三分之一。
在如此严峻形式下,大量数据显然没有办法得到有效保存。有数据表明,当2025年全球新增数据量达到175ZB时,真正能存储下来的数据仅有15ZB左右,流失率超过91%,即使存储下来的数据,得到有效处理和分析的数据占比并不高,其中最主要的原因还是计算和存储所需要的成本。
降伏成本恶魔至关重要。
作为全球知名的硬盘厂商,西部数据将海量数据分为:快数据、大数据两种类型,其中,快数据又分为热数据和温数据;大数据分为冷数据和极冷数据。从占比看,快数据的占比在20%左右,其余80%的数据属于冷数据范畴。其中,快数据又称结构化数据,具有很高数据价值,以往以数据库处理为主;与之相比,非结构化数据属于价值密度比较低的数据,以社交数据、机器数据为主,以往多属于被丢弃的数据,但是随着计算能力提升,低价值密度的结构化数据处理成为了可能,从而社会迎来了数据创新时代。
西部数据公司副总裁兼中国区业务总经理刘钢表示:“如今,云服务提供商和系统集成商有一个共同点:它们都需要一种多层存储策略,利用多种技术管理宝贵数据的爆炸式增长和大量工作负载。西部数据开发、制造, 销售的内容包含了从NAND、固态硬盘、硬盘和平台在内的一系列品类。西部数据完整的数据存储解决方案为当下蓬勃发展的数据需求提供针对性能、容量、总体拥有成本的优化存储选择,帮助我们的客户有效应对他们的数据基础架构挑战。”
数据创新时代首要解决的就是海量非结构化数据,满足不了数据存储的需求,数据创新就无从说起。受数据规模和成本限制,没有办法沿用传统数据存储手段,海量数据存储需要走出一条新路,为此,分层存储应运而生。
有容乃大,先进技术满足大数据存储需求
从技术的角度看,海量数据爆炸式增长带来的需求,一是容量的需求,要求足够存储空间;二是性能的需求,因为存储不是目的,数据创新才是目的,数据创新对于存储有传输性能的需求,所谓近线存储,综合考量,大容量磁盘才是最佳选择,磁带、光盘很难满足需求。
为了追逐大容量,以西部数据为首的磁盘厂商在技术上无所不用其极。
首先是HelioSeal氦气密封技术。相比于空气,氦气密度仅为空气1/7,对于高速旋转磁盘盘片而言,意味着更低的旋转阻力,以及更小的盘片抖动,如此就能够在有限空间内,将盘片从9片增加到10片,提供更高的存储容量,同时也能带来功耗节省。
与氦气制造技术不同,叠瓦式磁记录(SMR 磁盘)和能量辅助磁记录(EAMR)技术是从磁盘盘片磁道距离和磁密度方面进行挖潜。其中,SMR允许磁性位区域与相邻磁道重叠,就像木瓦重叠一样,从而增加磁盘磁道的密度,以此来提高磁盘表面的位密度。相比,EAMR是在写入磁头的主极施加电流,使之产生额外的磁场,以此来增加提升磁盘磁道的面密度。此外,还有微波辅助磁记录(MAMR)硬盘能够比热辅助磁记录(HAMR)等创新技术。其中,SMR、EAMR等氦气硬盘技术较为成熟,产品已经投放市场,以西部数据为例,已经交付了五代采用氦气密封技术的硬盘,数量超过5000万件;到2024年,SMR HDD的出货将占所有EB出货量的50%。
从实际效果来看,CMR氦气硬盘,以西部数据Ultrastar DC HC550为例,磁盘容量能够达到16TB和18TB,Datto、DDN和Dropbox等国外用户已经率先使用了该大容量的硬盘。如果进一步使用SMR技术,以西部数据Ultrastar DC HC650为例,磁盘容量可以进一步达到20TB。
扬长避短,物尽其用
单位存储密度的大幅度提升,为海量数据存储和处理创造了条件,以8月6日,UCloud最新发布的新一代归档存储产品为例,相较标准存储,新产品能够降低近80%存储成本,能够为用户提供低至0.024元GB/月的冷数据存储解决方案,此外,UCoud 在兼容SMR、CMR盘、双活高可用、上下电的IO调度、EC的灵活配置和磁盘故障自动化等技术上下足了功夫,在提供高可靠、大容量存储的同时,兼顾TCO的需要。
新技术在带来竞争优势的同时,也会带来一些技术上的限制。以SMR为例,磁性位区域与相邻磁道重叠,硬盘写入数据时,要先把所要改写磁道的数据缓存起来,一边要写当前磁道的数据,还要将后面磁道的数据纠正,这就需要大缓存配置,即使如此也避免不了写入性能的降低。
因此对于SMR磁盘存储而言,应该尽可能减少频繁的数据擦写,最佳的存储方式就是顺序写入,让生命周期相同的数据处于相同的磁盘分区;减少不同生命周期、不同存取热度的数据的混杂。为此,西部数据对外发布了分区存储技术(Zoned Storage),并对外发布了libZBC、libZNS共享库以及开发工具,支持文件系统和内核模块设计,这些技术已经对外开源,并得到了SUSE、ATTO、Microchip、Broadcom等厂商的响应,UCloud最新一代归档存储产品在自研的基础上,很好兼顾了分区存储技术的要求。
但是疑问在于:与大容量CMR磁盘相比,SMR磁盘容量仅从18TB提升到20TB,仅为2TB提升,还需要克服写入限制,值得为此大动干戈吗?
答案是:不要小看这2TB容量的提升。我们知道,单位TB价格( $/TB)只是现代云数据中心考量的一个维度,相比TCO 的降低并不限于降低 $/TB。每个硬盘的容量越大,服务器拥有储存容量越大,例如从14TB迁移到18TB呈现出显著的TCO收益:服务器减少了22%;TCO降低了11%。
鉴于数据中心占用空间有限,通过更高磁盘容量进行更密集的存储部署,显然可以带来更多的收入节省。存储服务器的成本通常要求控制在数据中心总体运营成本的60%以内。而实际上,更高容量的磁盘可以更有效地平衡这一需求。
小结
冷数据占比海量数据的80%,不仅如此,UCloud研究发现,随着时间推移,大概6个月左右,各类数据访问量都会由热至温,由温至冷,如果这些数据始终保持在生产系统中,势必付出高昂的代价。为此,有效处理冷数据存储意义重大!
拿下“锦州”,冷存储事关全局,牵一发动全身!十万火急!