你或许知道,在许多预测报告中都提到,非结构化数据正在以前所未有的高速度增长,比如,Gartner预计,到2024年,大型企业存储在本地、边缘或公有云上的非结构化数据将是2020年的三倍。
那么,到底什么是结构化数据,什么又是非结构化数据呢?为什么越来越受关注呢?作为老牌存储公司,戴尔在2021年又是怎么看对象存储的呢?
非结构化数据存储市场概述
所谓结构化数据,本质上就像一个统计信息的表格,把每个人的名字,身高、体重、年龄、性别等信息汇总到表格里,这种数据表格就属于结构化数据,常见的关系型数据库就是以类似的方式来组织数据的,由于它具有固定的格式规范(字段)。所以,可以轻松按照身高、体重、年龄等量化指标进行检索并排序展示出来。
当然,对于一个人来说,只有这些信息是不完整的,如果每个人都有自己的形象照片,这个照片就是典型的非结构化数据,但照片不适合放到表格里,因为它没办法根据内容进行有条件的检索,如果非要按照颜值的高低进行排序,那就太为难计算机了。而且,照片的数量和单位容量都在快速增长,基于以上种种原因,它不得不以另外一种方式进行存储。
非结构化数据主要以文件存储和对象存储的方式进行组织,在社交网站上、在IoT设备里、在企业的文件档案库、在视频监控设备里、在新闻媒体的资料库、在基因测序研究者的电脑里、在自动驾驶的汽车里、在银行的后台到处都有大量的非结构化数据,而且增长的速度还很快。
信息技术与数据存储相伴相生,随着数据量的增长和应用类型的不断丰富,数据管理系统也越来越负载,上世纪九十年代,文件存储系统NAS开始出现,戴尔在1996年发布 Symmetrix Network File Storage (SNFS)这一划时代的NAS文件存储系统。
而后,戴尔又在2001年发布CENTRA进入对象存储市场,当时,距离AWS发布第一款云计算产品S3还有五年时间。AWS的对象存储服务S3是如今对象存储市场火热的一个起点,客观上说,是公有云把对象存储市场真正带火的,但火的远不限于公有云。
之所以现在对象存储火到冒烟儿,最根本原因还是AI和大数据技术能从非结构化数据中挖掘出价值,企业越来越重视。之所以对象存储比文件存储更火,除了因为对象存储在成本、可管理性和灵活性上更有优势以外,还在于它与许多新技术有密切关系,对新技术的支持度更高。
公有云的对象存储服务有其优势,但考虑到安全合规以及带宽成本等问题,企业倾向于部署企业私有的对象存储方案,那么企业都是怎么用对象存储的呢?
戴尔科技集团大中华区非结构化数据存储事业部技术总监胡渊汶介绍说,对象存储主要有两类用法,一类是面向传统场景提供归档存储。另外一类,面向现代化的应用程序,比如互联网大数据分析、AI等场景,比如云原生架构这类负载。
其实,第一类用法利用的是对象存储低成本以及写入少读取多(WORM)的特性,第二类主要利用其高扩展性和高灵活性的优点。为了克服对象存储性能上的不足,业内近几年来开始尝试用全闪存来提升性能,性能型的对象存储成为趋势后,应用场景将进一步扩大。
在2020年10月份,在Gartner发布的分布式文件和对象存储魔力象限报告中,戴尔科技集团和IBM作为传统传统存储大厂,都处于魔力象限的领导者象限,可见老牌存储厂商对于数据存储这件事本身还是非常重视。
魔力象限报告中,戴尔凭借明星产品Isilon(PowerScale)和ECS对象存储处于最右上角的位置,戴尔的非结构存储,尤其是ECS究竟有哪些特点呢?
ECS是一款怎样的对象存储产品?
首先,作为一款对象存储产品,作为一款有大约20年历史的对象存储方案,ECS经历了三次大的版本迭代。现在的第三代ECS有很强的可扩展性,支持从最低60TB起步一步步扩展到EB级以上规模,可谓是门槛很低,但升级潜力巨大,扩展性是对象存储的首要特性。
当然,忽略性能和SLA谈扩展性是耍流氓。ECS对于存储的文件数量和文件大小都没什么限制,也就是无视小文件对读写性能的挑战,也无视扩展到大规模之后对性能的影响。在具体落地过程中,戴尔的专家会具体给出实施建议,在满足大规模的基础上,提供足够的性能表现。
ECS支持小文件归并功能,通俗点讲,就好比凑够十多个人过马路一样,因为,10个小文件写十次的效率要明显低于将十个小文件在内存里合并后写一次的效率,这是ECS提升性能的一个操作。
随着2020年戴尔发布全闪版本的ECS——EXF900,更验证了性能型的对象存储这一发展趋势,性能上虽然趋近于文件存储,但对象存储不能反复修改的特性(某种程度上也是优点)是它跟文件存储的本质区别,决定了它适合一次写入多次读取的工作负载,比如人工智能、机器学习、物联网、分析和云原生应用等场景。如你所见,绝大部分都是新型工作负载。
此外,在架构设计上。ECS可以跨全球部署8个站点,构建覆盖全球的云存储服务,它可以通过就近访问和缓存加速来优化使用体验。由于支持数据跨区域复制,所以ECS可以针对每个站点提供保护,在站点发生故障或者宕机时进行恢复,也就是自带容灾架构。
在兼容性方面,ECS除了提供S3协议以外,还支持常见的NFS、CFS、HDFS等文件存储协议,从而与原有的存储系统相互打通,比如与PowerScale或者DataDomain配合使用,将ECS作为前者的容量型存储池,分出一层做归档或者冷存储。
ECS高级的元数据搜索功能令人印象深刻,除了系统自带的元数据,用户可以自定义元数据进行搜索,用户通过打标签的方式对数据进行分类,如果同一个项目都有一个标签,那么就可以从项目的角度去看整个数据构成,对于用户的实际管理和使用都有很大帮助。
对于许多使用戴尔ECS对象存储的用户来说,最不用担心的就是安全合规方面的问题,数据安全方面有许多像ECC之类的技术,安全管理方面也有许多措施,还兼容AWS的IAM标准,能防止各种未经授权的数据访问。
与公有云对象存储不同的是,ECS是一种能提供强一致性的对象存储,强一致性多站点访问,能保证用户能够读到最新的数据,这种技术给前端业务带来很大的便利性,降低开发难度,也就是提高开发效率。
ECS既提供本地部署方案,也能部署在云上,比如ECS可部署在公有云Google Cloud Platform上。国内市场上,戴尔主要提供本地部署方案,具体点说目前只提供软硬一体的交付形式。在技术上和商业模式上,都可以与大型公有云服务商合作来提供对象存储服务。
为什么现在来谈非结构化数据存储ECS
2021年这个时间点也挺有意思,要知道,云原生是在近一两年才开始逐步升温的,2016年当IBM收购Cleversafe来强化对象存储实力时,就曾掀起过一波对象存储话题热度,但当时提到对象存储,更多还是面向胡渊汶介绍的第一类场景,大部分企业用对象存储做归档存储。
在国内以及国际市场上,戴尔其实很少来单独讲对象存储,尤其是很少谈对象存储,2021年4月,再谈起对象存储的时候,市场环境与2016年相比已有很大不同,戴尔向中国媒体重新介绍了一下对象存储ECS,那为什么是现在?
首先,从市场来看,国内对象存储市场在快速增长,国内市场上时不时就有超大容量的项目出现。IDC《2020年Q2,中国软件定义存储及超融合存储系统市场季度跟踪报告》显示,SDS在2020年上半年较去年同期实现38.3%增长,其中对象存储出货比例增长46%,超过软件定义存储市场总体增长率,对象存储是存储市场增长的新动力。
作为非结构化数据存储市场的(魔力象限)最右上角领导者,凭借品牌影响力和久经考验的产品方案,戴尔自然不会放过这一市场机遇。
第二点,从根本上来讲,还是技术和用户需求在推动对象存储的发展。从企业应用创新的角度看,对象存储的价值非常明显。
如上文所说,对象存储更适合人工智能、机器学习、物联网、分析和云原生应用等场景。云原生的技术更容易落地,更容易让用户看到业务加速的效果,人工智能、机器学习等技术的价值也都不言而喻,新技术在推动着企业用上对象存储。
有企业为新技术落地而选择对象存储。海通证券利用ECS对象存储的扩展性建立了存储资源池,不仅降低了初期成本投入和TCO ,还解决了传统磁带库性能低下、可靠性不足等问题,同时还获得了数据全生命周期管理能力,更为后续在业务中融入人工智能等技术做好了准备。
胡渊汶认为,企业在对旧的定制应用系统做现代化改造时,最好的做法是改变应用使用存储的方式。
因为基于NAS文件存储来开发传统应用的体系其实非常复杂,有几个应用就需要对应有几套文件系统,甚至还有五花八门的专有API,这导致应用开发和存储管理的成本都很高。而且,许多应用都只能本地使用,无法以Web应用和移动应用方式来访问,非常不现代化。
现代化的云原生应用中直接使用对象存储来存储数据,数据绕过Web服务器,直接通过API存取数据到对象存储,开发过程简化。而且对象存储的管理成本很低,一个人就能轻松管理PB级的数据。配合对象存储,云原生架构会使得企业软件的开发迭代速度变得非常快。
从胡渊汶的介绍中了解到,国内某大型商业银行的手机银行有许多新应用需要大量频繁迭代,于是,该银行逐步把这部分业务转型为云原生业务,底层存储中采用了ECS,存放着超过100亿个对象,每天大概要接受2亿左右的请求,在ECS之上部署了200多个应用。
该银行的应用开发部署的节奏明显加快,最多一个季度上线了50个应用这在以前是不可想象的,这是云原生架构以及对象存储技术的价值体现。