我一直试图在传统集中式存储和分布式存储应用之间找到一条界线,尽管有交叉和重叠,但还是应该有一条界线:哪些适合集中式存储,哪些适合分布式存储。但是这条界线我一直也没有找到,因为既不能按性能划分,也不能按照容量划分,如果按照业务稳态、敏态类型划分也不合适,总之没有一条清晰界线。
高兴就好,存储方案选择全凭用户自己的喜好。
数据界线泾渭分明
相比存储系统界线的混沌不清,数据的界线堪称泾渭分明。
数据由结构化、半结构化和非结构化数据组成,其中非结构化数据是导致数据量激增的主要原因。
此前,应用关注的重点在结构化数据,因为其特点是价值密度高,数据量并不大,主要以数据库、数据仓库等应用为主。但是随着数据处理成本的不断降低,大量非结构化数据也得到了重视,以电商、在线教育为例,用户的消费习惯和访问行为都成为了业务关注的重点,尽管其价值密度低,且数据量巨大。
但是无论何种数据,都存在一个从极热/热、温、冷、极冷数据的变化过程,所谓数据的生命周期,不同阶段对处理需求也不相同,例如热数据处理需要高IOPS、低延迟的能力。相比冷数据则对IOPS、延迟要求不高,主要诉求在容量上,主要强调$/GB的成本。
目前还没有一种存储技术能够同时满足数据生命周期的全部需求,要么满足性能,要么满足$/GB成本,在现实选择中,NAND SSD主要用于满足性能需要,大容量硬盘用于容量型的满足。全闪存阵列和分布式存储并存。
分布式存储的新突破
值得注意的是,集中式存储是中心化性质的存储,通过http协议方式集中访问,由于数据中心化,高峰时会面临拥挤,卡顿的现象,同时容易受到攻击,导致信息丢失,盗窃;其运维成本比较高。
而分布式存储是一种去中心化存储,例如面向全球的、点对点的分布式文件储存系统,数据访问采用点对点的超媒体传输协议。
在架构设计上,构建一个分布式存储,需要构建计算集群和存储集群,其中,计算集群用于生成和验证复制证明(PoRep)、时空证明(Post)等鉴权数据;存储集群则用于海量分布式数据的存储。
集群性质不同,所需要的存储支撑技术也不相同。
计算集群需要对PoRep、Post等进行交互式验证,会涉及原始数据的封装处理、证明数据的计算、检索和抽取等,要求是高IOPS,以及稳定性、可靠性,一旦失败,将直接影响经济效益。因此在技术的选择上,计算集群适合采用企业级SSD产品,如西部数据的Ultrastar DC SN640/SN840 NVMe SSD。
相比,存储集群对于单盘容量、成本比较敏感。SMR等大容量硬盘更能够满足存储集群的需求。有数据显示,单盘容量的提升能够带来更大容量、更低功耗,以及更高的效率。
在近日举办的Web3.0中国峰会上表示:“在Web3.0领域,主要容量节点从8TB迁移到今年的18TB只花了四个季度的时间。Web3.0厂商快速学习了互联网服务商最新的存储技术,然后部署到18TB的更大容量、更高密度的方案,来获得存储成本和密度的优势。目前,18TB已经是云存储和Web3.0存储中最主要的容量节点。”
去中心化的存储,对源数据的确权,以及重复数据、副本数据的甄别,都带来了创新性的思路,从效果看在$/GB成本表现上更胜一筹。此外,外部环境的加持,更为数据生命周期管理带来崭新的思路。
刘钢指出:“凭借行业领先的闪存和硬盘存储技术,以及纵向集成与产能上的独有优势,西部数据不断为分布式存储领域提供先进的数据存储架构和解决方案。在未来,我们将持续助力客户降低部署和运维成本,并满足高效率、大容量及节能减排等多样化需求,加速Web 3.0落地,助力‘东数西算’算力网络建设。”
据刘钢介绍,在分布式存储领域,西部数据携手多位行业合作伙伴,共同探索创新的存储解决方案,赋能Web3.0的蓬勃发展。
其中,腾讯结合了西部数据企业级硬盘,以及面向腾讯应用场景进行优化的高密存储服务器,推出分布式存储服务Tencent COS,实现了存储桶空间无容量上限扩展,满足多种场景需求,并实现了稳定性、安全性、易用性、成本效益等方面的优势。
西部数据与杉岩数据联合打造融合了杉岩MOS海量对象存储系统、Ultrastar DC SN640/SN840、Ultrastar DC HC550 和 JBOD 存储平台的解决方案,降低了业务的总体拥有成本(TCO)、全面提升经济效益。
灵动则应用了西部数据Ultrastar DC SN640/SN840、Ultrastar DC HC550,让客户拥有更快的封装、验证、出块速度,并根据网络质量对三大网络运营商进行实时调整,自由切换,提高了客户的效益。
此外,星辰天合(XSKY)、浪潮联手西部数据,推出了分布式存储解决方案,包括西部数据 Ultrastar DC HC550 18TB硬盘、浪潮英信服务器NF5466M5、XSKY文件存储系统等关键组件,不仅实现了快速部署、便捷运维,还减少了业务的异常情况带来的损失,大幅提升业务能力。
小结
作为企业最核心的资产,全生命周期的数据必须得到重视,既然没有一个单一技术的选择,这意味着现实阶段还需要将存储分层技术进行到底!