终于看清了,本地存储与公有云存储的关系

云上存储和本地存储厂商的关系

在公有云崛起的大时代下,传统本地存储过时吗?公有云存储能替代传统本地存储吗?在冒然下结论前,我先分享几个现象。

一个是,公有云厂商陆续宣称,云上的存储服务也能运行一些关键应用。比如,可以运行关键业务的关系型数据库,运行SAP HANA之类的工作负载。

另一个是,本地存储厂商开始与公有云厂商进行合作,一些传统本地存储厂商在云上提供了托管服务,比如戴尔与多家公有云厂商都有许多合作。

我们看到,虽然公有云存储能承载一些关键业务负载,但公有云仍在与本地存储厂商进行合作,而且,这种合作还不在少数。

2020年,戴尔与谷歌合作将Isilon的横向扩展文件系统OneFS放到了谷歌云上,用于生产环境。

2021年的一份白皮书上,Dell PowerScale OneFS在微软的Azure上提供计算密集型文件工作负载。

在许多人的想象中,公有云似乎无所不能,那为什么还会跟传统本地存储厂商进行合作呢?

戴尔大中华区非结构化数据存储事业部总经理刘志洪的一番话道出了背后的关键原因。

某国内大型公有云服务商的负责人曾对刘志洪表示,任何公有云厂商想要做好分布式文件系统,做好高性能分布式文件系统,大概需要投入两三亿人民币,需要两三百个研发人员研发两三年,做出来的方案还不一定比戴尔的分布式文件系统OneFS好。

OneFS是戴尔分布式NAS Isilon的操作系统,Isilon最早是在2001年推出的,20多年的发展历程中,经历了无数生产环境验证,踩过的坑很难数清楚。如果要再造一个OneFS或者超越OneFS,也需要经历多年的打造和历练,产品技术以外还得积累大量实战经验。

在IDC的报告中,基于OneFS的PowerScale是排名第一的横向扩展NAS平台。在Gartner的魔力象限中,基于OneFS的存储系统连续六年位居领导者象限的最右上角。市场上,基于OneFS的文件存储系统已经提供了17EB的容量空间,服务于数不清的企业用户。

刘志洪的这番话梳理了公有云存储和本地存储之间的关系,优势差异,其实我们也完全可以从另一个角度来看两者的关系。

十多年前,中国市场上的存储服务提供商绝对以国际大厂的本地存储为主,中国的存储厂商只有少数几家,而现在,在公有云如火如荼发展了十年后,中国存储市场上的本地存储厂商数量居然在增多。

在公有云发展的同时,本地存储厂商也在巨大的市场空间下快速发育,其实,这些市场空间大部分都来自于数据量的爆炸性增长,特别是非结构化数据。

非结构化数据推动存储市场发展

IDC预测,到2025年,全球数据量将达到181ZB,其中,80%的数据都是非结构化数据。得益于各行各业的数字化转型进程,大数据、物联网、机器学习等技术的应用和普及,企业和组织希望从数据中发现价值,提高企业和组织的运行效率。

刘志洪表示,2018年,戴尔在内部发起了一个“10PB俱乐部”活动,用于表彰销售容量达到10PB的销售人员,推广部署容量达到10PB的用户案例,而当时很多人都觉得这一目标设定的太高了,以医疗行业为例,2018年普遍需要的容量都是几十TB到几百TB的水平。

而在最近两年,医疗行业对于非结构化数据存储,特别是医疗影像数据存储需求爆炸式增长。去年,有一家医院一次性采购了10PB的PowerScale用于存储医疗影像数据,而这还不是国内最大的,国内医院最大的容量已经达到20PB的水平了。

PowerScale是Isilon的升级版本,提供全闪节点、混合节点和归档节点,在某医院一次性采购10PB存储的项目中,既有大量全闪存节点,也有归档节点,前者负责支撑前端应用,后者用于长期归档数据,也可用于大数据分析和人工智能等场景。

刘志洪对于未来趋势也非常乐观,认为在未来三到五年里,会有一些用户一次性采购100PB规模的存储,到时候,戴尔的10PB俱乐部就应该改成100PB俱乐部了。

在IDC的数据里,2020年全球数据量才64ZB,到2025年就要达到181ZB了,刘志弘说的100PB俱乐部或许并不遥远。

但说到底,数据的增长只是现象,企业和组织说到底是为了从数据中挖掘价值,提升竞争力,所以,各行各业对数据的利用情况就非常关键。

非结构化数据在典型行业的典型用法

下图是戴尔汇总的非结构化数据(UDS-Unstructured data storage)比较火的应用领域,总结的还是非常全面的,不难发现,非结构化数据存储对每个行业都越发重要。

戴尔大中华区非结构化数据解决方案部高级系统工程师高中耀介绍了非结构化数据在芯片设计和机器学习领域的用法。

从介绍中了解到,芯片设计和芯片制造环节会产出大量非结构化数据,从存储的角度看,设计10nm芯片前后需要600-700TB数据,设计7nm芯片则需要大约1.2PB的数据。从计算的复杂度来看,每更新一代芯片进行仿真测试运算所需的CPU核数也会翻倍。

EDA芯片设计行业对于存储的性能和容量都提出了要求。

芯片设计前期需要处理大量小文件,对于IOPS性能要求很高,而在做仿真测试验证的时候,则会产生大量大文件,对于存储系统的带宽吞吐都提出了更高要求。最后,在设计完成后,则需要设计数据做长久归档,整个流程对存储能力的要求非常均衡。

高中耀介绍称,Dell PowerScale在芯片行业的应用非常普遍,全球排名TOP20的芯片设计企业里,有80%都采用了PowerScale的方案,PowerScale可以帮企业轻松应对芯片设计对IT的挑战。

Dell PowerScale的可扩展性可真正实现弹性伸缩,可面向未来的设计需求,灵活根据需求调整集群大小。同时,PowerScale全闪存、混合、归档系列可以满足芯片设计不同阶段对于存储的要求。

Dell PowerScale本身非常成熟和现代化,无需迁移数据就能完成升级换代,在可靠性方面,也都是行业标杆水平,能让用户更省心。

在AI和机器学习领域,PowerScale可以从容处理大量用于机器学习模型训练非结构化数据,闪存配置的PowerScale可应对对性能的更高要求,PowerScale丰富的存储协议还可以统一对接各种存储资源。

戴尔大中华区非结构化数据解决方案部高级系统工程师赵斌介绍了高性能数据分析(High Performance Data Analytics-HPDA)在油气勘探场景对存储提出的挑战。

HPDA结合了高性能计算和大数据分析技术,本身对于实时性要求就比较高,油气勘探行业,随着模型精度的提升,随着采集频次的提升,数据量呈几何级的激增,采集的数据进入HPC系统后,需要极高的并行处理性能,而且要缩短数据处理的周期。

在油气勘探场景中,支持多协议的PowerScale不仅能将各种数据快速导入,而且还能根据数据的冷热程度进行自动分层,配合数据精简功能还能提高数据存储的效率,降低存储的成本。

结束语

非结构化数据的用法可谓是多种多样,各行各业的应用中,都是负责记录丰富多样的数据,然后从数据中获得洞察。

在可见的未来,数据的量会越来越大,对非结构化存储的要求也会越来越多,也就有越来越大的市场空间。

在巨大的市场空间中,本地存储和公有云上的存储都将迎来发展机遇,两者也将相互影响,相互促进。