译注:这份报告是作者Enrico Signoretti——Juku Consulting创始人,分析师,顾问和博主,意大利OpenIO公司产品战略主管为技术研究与分析公司Gigaom撰写。
概要
在本世纪的第一个十年里,随着供应商针对各种数据和应用提供解决方案,我们从相对简单的存储技术和实现方式迅速转向广泛的选择方案。由于总体效率,成本控制和现今大容量提出的必要性,他们正在响应日益增长的存储专业化需求。
在这样一条发展变化之路上,瑞士军刀方案不再适用。云计算,物联网,大数据分析,虚拟化,容器,主动归档存储,还有法律,法规,安全性问题和政策是重新考虑各方面数据及数据存储的动力因素。此外,每个单一应用程序具有不同的工作负载特性,为了保持竞争力并快速适应新挑战必须要进行相应地处理。无论是远程或是本地数据访问,当相同的信息需要快速,安全地共享到遍布全球的大量设备时,又增加了一层复杂度。
现在,一类两层存储策略以适当的方式覆盖延迟敏感和容量驱动的工作负载变得至关重要。
该细分市场路线图通过审查主要供应商,前瞻性解决方案和外部人员以及主要使用案例来检查对象存储市场不断扩大的面向企业内二级和容量驱动型工作负载细分市场。
本文档内容覆盖了Scality,SwiftStack,EMC ECS,RedHat Ceph,HDS HCP,NetApp StorageGRID Webscale,Cloudian,Caringo,DDN,HGST等企业,并将提供有关OpenIO,NooBaa,IBM Cleversafe和Minio产品的补充信息。
最终的目的是向读者提供了解对象存储的好处以及如何实现解决具体业务需求和技术挑战的工具。本报告还将有助于更好地了解市场发展情况,并向现有和未来存储基础设施制定长期战略提供支持。
分析主要发现包括:
•Amazon S3 API是实际的标准。兼容性水平对所有产品都不尽相同,但是它的差异越来越小,如果一些供应商显示了出非常高的兼容性,那么其供应商就会迅速赶上。
•在传统的企业机构中,人们并不认为可扩展性是一个主要问题,但横向扩展很重要。事实上,大多数企业最初是针对一个使用案例采用对象存储而且容量不高于200TB。随着时间的推移,对象存储被部署用于更多的使用案例,容量不断增加。虽然多PB级环境越来越普遍,但整体安装基数依然很低。
•云的分层功能是一种好处,但在实践中它仅用于管理临时容量突增。
•端到端综合解决方案受到偏爱易用性而非最佳解决方案的企业和终端用户的青睐。
•终端用户喜欢预集成设备的想法,但比以往采用纯存储方案更加自信。
•最近,大部分基本功能(数据保护,可用性,API兼容性,UI)的采用是理所当然,并且$/GB价格指标被认为是一个主要“功能”,特别是在对象存储的主要用例是第三方应用程序的后端存储库(即备份)的情况下。
•通过本地连接器或网关,NFS和服务器信息块(SMB)访问协议现在对于计划提供传统文件服务并希望通过不同方法访问数据的所有终端用户是一个关键功能。
介绍与方法论
目前大多数机构面临的主要挑战是,传统存储基础设施已经不足以满足大量数据存储所需的高要求工作负载以及数据频繁访问所需的低延迟。据估计,有80%的数据是非结构化数据(主要是文件),而其余的是结构化数据。这些数字都在呈指数级增长,迅速扩大到非结构化数据的比例越来越大。寻找可满足容量驱动或延迟敏感工作负载的解决方案变得至关重要。
数据移动性是另一个重要因素。它是构建可持续基础设施的基石,可以无缝地处理与应用程序,使用年限,访问频率,访问设备及其位置相关的正确数据分布。
例如采用数据保护或复制的基本存储功能被视为理所当然,是最小的“桌面筹码”,人们也不再认为数据服务具有差异化。另一方面,目前特别是面向主存储,存储分析和自动化正在发挥重要作用,新的创新功能作为一个参考对于寻求混合云模型的企业来说变得有了吸引力。
终端用户正在寻找高效地存储基础架构——通过极少的工作量以及大量的自动化进行管理。此外,随着容器逐渐成为参与市场的一部分,作为未来可行的计算模式,有两个需要考虑的重要方面——首先,在绝大多数情况下,容器现在只部署用于软件分发;第二,从长远来看,状态性容器将需要永久存储。块访问是一种解决方案,但许多开发人员还喜欢对象存储,因为它具有更好的数据移动性而且可以通过API访问。
对象存储允许将大量本地和远程数据存储库合并到一个较大的数据存储库中,而这个数据存储库更可靠,可用并易于保护。市场上可用的大多数对象存储平台都嵌入了地理复制和高级数据保护机制,能够以极少量的工作实现多数据中心/区域配置。本地对象存储也是私有云存储服务的正确后端,特别是在对数据本地化方面法律和法规极为严格的欧洲国家。
方法
针对分析,我们已经确定并评估了六个Disruption Vectors(颠覆性向量)的相对重要性。它们是在该行业争相获得优势的厂商所使用的关键技术。技术买家也可以使用中断向量分析帮助他们选择最适合自己情况的产品。
本报告中的Disruption Vectors突显了Gigaom Research认为面向企业对象存储市场的每个关键Disruption Vectors的相对重要性。我们已经对它们的相对重要性增加了权重。
Gigaom的研究分析过程也为每个公司的每个向量分配了1至5分的分值。这些分数的组合以及向量的相对权重和重要性跨所有向量驱动了公司指数。结果是在公司分析发现的细分市场路线图。
使用场景
对于该报告,Gigaom Research发现了三种不同的常用案例,特别是终端用户采用企业对象存储。另外还有三个关键领域有望在未来进行研究。在大多数情况下,终端用户只从一个应用程序或用例开始使用,但时间一久,相同的基础架构会用于覆盖所有常见的使用案例甚至更多。
文件服务整合
随着分布式机构降低成本并对数据进行更大限度的控制,传统文件存储系统的TCO(总拥有成本)走上了不可持续发展之“路”。同时,由于数据能够随时随地访问,机构需要加强在灾难发生时的服务水平与RTO/RPO,提高安全水平。
大多数对象存储供应商现在都在为远程办公提供虚拟或物理网关,不但保持了与本地办公相同的用户体验,还极大提高了安全性,DR并降低了总体成本。本地缓存提供所需的性能,同时所有数据都传输到后端对象存储。网关是无状态的,不需要备份与/或DR计划。
企业合作
现在绝大多数终端用户都在移动设备上工作,希望随时随地在任何设备上都拥有高效率。与Microsoft Active Directory与Enterprise Sync&Share相集成为用户提供与Dropbox等消费类服务相同的体验,但同时也具有企业级安全性并遵守公司政策。
一些对象存储供应商拥有端到端解决方案,这些解决方案只需简要部署较为可取。另一方面,第三方解决方案会提供额外的功能,但通常在管理和部署会极为复杂。
备份存储库
传统虚拟磁带库(VTL)扩展性受限且价格昂贵,其每GB容量价格通常高于公有或私有对象存储。越来越多的数据,特别是非结构化数据以压缩与/或加密格式保存,在这种情况下进一步的压缩和重复数据删除无法提高空间利用率。大型机构仍然依靠磁带进行长期备份和归档,因为和其他存储介质相比,磁带的成本较低且长期稳定可靠。因此,S3协议在备份软件产品中非常普遍,VTL也可以拥有一个S3兼容接口。
这种使用案例在大型企业里越来越普遍。现在拥有了可以直接与磁带库连接并利用其分层机制的对象存储系统,数据移动对于备份应用程序是无缝和透明的。$/GB标准极低,所需管理工作较少。
物联网——大数据湖基础
企业开始收集数据,构建数据湖。在某些情况下,他们的大数据分析策略尚未明确,它们只是保存数据以备未来使用。其他情况下,不同的部门使用不同的工具,但一些数据可以共享。物联网计划将以惊人的速度生产更多的数据。
在这些正在采用拥有极低的单位容量价格,高可管理性和绝佳可扩展性的大型存储库的企业客户之间,对象存储变得越来越普遍。
一些对象存储供应商拥有允许与Hadoop/HDFS集群兼容的Hadoop分布式文件系统(HDFS)接口,但现在也有一些Hadoop发行版支持S3协议。虽然对象存储在大型设备中可以实现高吞吐量,但取胜因素依然是单位容量价格低廉。
例如,日志分析是大数据分析中的一个特定用例,大数据中心正在尝试将单个大型存储库中的所有日志进行整合,使用特定工具来获取实时监控,安全性以及有用的趋势进行资源能力规划。这些日志有时会长期保存,以备将来审核或者仅为了遵从法规。
主存储和二次存储集成
许多主要存储厂商正在开发解决方案,透明地将未使用的数据卸载到对象存储(长期保存,快照,克隆等)。这可以被视为即时备份/恢复选项,并且作为一种方式节省珍贵的全闪存存储容量。或者,在其他情况下,执行数据复制,并且该数据移动机制可适用于将数据移入/移出云或作为一个DR选项。
高级数据服务
元数据搜索作为一个有价值的功能越来越受到关注。企业希望利用这个功能在例如电子证据发现,审计,安全等几个领域建立易于使用的自助门户网站。
随着无服务器计算模式在在公有云中获得了一些成功,企业可能对其本地基础架构采用类似的方法。在对象存储上的操作可以触发将数据密集型任务直接卸载到对象存储基础设施的功能(微服务),通过将某些应用程序逻辑卸载到对象存储系统来提高整体效率。
这并不只是所有对象存储用例的详尽列表,当然还有受到终端用户最多关注的使用案例。
Disruption Vector
在网络规模和垂直市场获得多年成功后,对象存储显然在企业采用中拥有了积极的发展趋势。然而,企业环境的关键特性与过去大型应用程序特性略有不同。企业用户仍然处于向API访问存储过渡期的开始阶段。大多数正在使用的应用程序仍然是基于旧协议,而API访问主要由第三方网关或应用程序使用。极少的终端用户正在或已经开发能够通过API直接访问对象存储的应用程序。这就是我们致力于反映这种情况的特定disruption vectors的原因。
我们确定的六个向量为:核心架构、定价模式、生态系统、易用性、附加协议和连接器、第三方支持。
核心架构
对所有对象存储系统来说,大多数基本功能很常见,但后台架构在整体性能和可扩展性方面却是至关重要。一些产品在市场上具有更好的可扩展性,并且在配置拓扑,数据保护方案的灵活性,分层功能,多租户,元数据处理和资源管理方面具有更大的灵活性。其中的一些特性与企业使用案例并不是密切相关,尤其是在基础设施容量小于1PB或者仅由几个节点来构建的时候。然而,从长远来看,每个基础架构都将发展并服务于更多的应用程序和工作负载类型。
核心架构选择不仅对于可扩展性或性能很重要。通过更好的整体设计,供应商更容易实现旨在改进平台和用户体验的其他功能。
定价模式
在报告中,我们已经考虑了纯软件解决方案。一些供应商还提供该产品的硬件版本,但预安装的设备价格通常高于组件的总和。从配置和成本角度来看,它的灵活性较低,通常还要依靠昂贵的支持服务来提高基础设施的总体拥有成本。
全面的定价模式通常比基本价格加选项要更有趣,更具成本效益。在企业环境中基于容量的认证最佳,因为客户通常不需要高密度的节点。开源解决方案通常对支持服务收取年度订阅费用,这意味着将成本转移到OPEX(运营成本),这是大多数客户看好地转变。
生态系统
长久以来,企业客户更喜欢端到端解决方案。在报告中,我们倾向于可以提供集成解决方案的供应商,尤其是在文件服务和协同工具(如Sync&Share)领域。
同时,特别是在涉及主要供应商的时候,要重点注意,其中一些供应商在产品组合中已经与其它产品的集成,从而促进从主存储到二级存储的数据移动。
易用性
与通常喜欢基于API管理的大型服务提供商发生的情况相反,企业对GUI也更有信心,而在安装和部署新节点时也是如此——易用最好。参与集群的节点数有限,通常不足以证明脚本活动的重要性,而且可用技能并不总是能够满足管理业务流程和配置管理工具。
协议和连接器
如今,最重要的对象存储协议是Amazon S3。它是实际标准,使用最为广泛。不幸的是,亚马逊与其他供应商合作不是很积极,部分产品的兼容性仍然很少。这可能使终端用户难以获得对象存储基础架构的认证,并与所有可用第三方解决方案配合使用。然而,供应商正在改善这一情况,从中长期来看,S3兼容性的水平应该不成问题。大多数供应商还提供额外的专有API和Swift兼容性,即便终端用户和第三方对它们的采用没啥兴趣。
NFS和SMB连接器或网关越来越受欢迎,但是实现方式却非常不同。在某些情况下,传统文件访问是一种向终端用户同时作为文件和对象提供同一数据的方式,当终端用户希望同时保留传统和现代应用程序的访问时,这非常有用。在其他情况下,提供文件访问以利用文件服务整合或横向扩展NAS应用程序的可靠性和对象存储后端的经济性。
第三方支持
由于在公有云里对象存储大获成功,现在还有许多即用型服务,应用程序和网关也可以在本地环境中采用。不幸的是,并不是所有的供应商与第三方认证解决方案和最佳实践的合作伙伴数量相同,让两个产品无缝协同工作。即使是最大的单一供应商生态系统,第三方解决方案可以更有效率和更具成本效益,具体取决于用例,用户数量和特定功能。。
公司分析
我们选择了一些供应商,代表了向企业提供本地对象存储系统的各种可行方案。这些供应商虽然具有不同的体系结构和可扩展性特性或市场细分定位,但它们都提供了类似的基本功能,使其适用于报告前面描述的几个用例。
1.Caringo Swarm
Caringo是一家美国初创公司,成立于2005年,拥有600+客户。它们客户的平均规模相当小,但市场广阔,因为它们有一些网络级规模客户,大多数是在企业空间或特定的垂直市场。
Caringo Swarm是第九代产品,作为纯软件或设备可用。最低配置为三个物理节点,但有些客户可以安装数百个节点,容量达到PB级。认证模式是基于容量,以及通过永久或基于服务的模式提供支持。
2.Cloudian HyperStore
Cloudian在S3兼容性方面声名在外。后端架构没有特殊设计,一个NoSQL引擎管理所有元数据,同时在外部保存对象。也就是说,产品前端和功能集很稳定,有100+客户使用。用户界面设计精良,易于使用,具有良好的分析工具。
多租户和QoS功能以及综合计费/退款机制,让该产品成为希望在单一平台上整合多项服务的企业和服务提供商的理想选择。它还可以为希望实施混合解决方案的客户提供云分层选项。
3.DDN WOS 360
WOS 360被视为一款高端解决方案。它与其他DDN产品在定位(HPC和大数据应用程序),性能和可扩展性方面保持一致。与其他存储系统在产品系列中的集成水平非常高,架构设计巧妙。
DDN提供的附加软件选项可将WOS 360连接到主要供应商的NAS系统,以进行基于策略的分层,数据迁移和归档。
该产品支持所有主要协议,并在年初增加了具有改进兼容性的新S3连接器。 WOS 360还具有易于使用的UI,具有实时分析仪表板,用于监视集群的状态以及其利用率相关的多个指标。
4.HDS HCP
HCP(日立内容平台)拥有1700+客户,平均集群容量在200到300TB之间。
该产品的后端架构老旧而且可扩展性不佳,但HDS已经能够围绕核心产品构建一个精心设计的生态系统,使得这个限制也不那么重要了。事实上,生态系统是由硬件和软件解决方案构成的,具有S10和S30 S3兼容的以太网连接的经济性存储节点,可以轻松提高存储容量。
该方案可以通过系统中可用的高级分层机制实现,也可以将数据移动到其他S3,谷歌和微软兼容的对象存储。
5.EMC Elastic Cloud Storage
弹性云存储(ECS)是EMC在这一领域众多尝试中的一次最新的成功尝试,作为预安装设备或纯软件版本提供。
在产品最新版本中,S3连接器的兼容性方面得到了改进,但是NFS仍然有不稳定性和可扩展性问题。与产品系列的其余部分集成到制造和端到端解决方案(例如CloudArray远程NAS网关)和高级数据服务(如元数据索引,搜索和分析)与竞争对手水平相同。
用户界面非常实用,一个现代化的图形设计和仪表板,可以一目了然地显示有关集群的所有重要信息。
6.NetApp StorageGRID Webscale
在过去的几年里,NetApp大幅改变整体战略,现在将重点放在比过去更加开放,平台多样化和数据移动化的方案上。StorageGRID Webscale是该策略(Data Fabric)的一部分,通常还包括公有云对象存储和SaaS服务。
StorageGRID Webscale核心产品架构设计与目前市场上更现代化的产品相比较旧,而且不具备吸引力,但木有可扩展性和性能问题。
每六个月发布一次新产品版本,生态系统也在逐渐成熟。事实上,Storage GRID Webscale与大量的NetApp产品(如AltaVault(云备份网关))和SolidFire兼容,用于快照卸载;其它计划将要发布的有,例如FAS ONTAP分层,Snapmirror(主存储的远程复制)等。此外,该产品包括以VM的形式分发的免费远程NAS网关,用于将文件移动到对象存储里。
支持通用接口协议。GUI现在正在改善。安装简易性和性能已经在当前版本的产品中得到简化和大大改进。
7.Red Hat Ceph Storage
2014年Red Hat收购InkTank后就成了Ceph最重要的贡献者,Ceph是一个提供统一存储系统的开源项目。实际上,Ceph是一个具有集成文件和块接口的对象存储平台。
Ceph的安装容量范围从几TB到几百PB。该产品非常复杂,适用于多种使用案例(例如最近的调查显示,大约57%的OpenStack集群都是基于Ceph),但与此同时,其需要更高级别的技能来实现调整和管理。在之前的版本里,由于分层文件系统架构,性能问题也受到影响,但最新的版本引入了可以提高性能的组件。Red Hat已经发布了一个Red Hat Storage Console,以尽量减少管理工作。
8. Scality RING与S3 Server
Scality成立于2009年,客户规模都在20+ PB范围内,但其关键产品(RING)是设计用于大规模部署。最低配置是6节点集群(容量最小为200TB,但极有可能是在300到600TB之间),使得小规模部署采用具有一定挑战性。为了部分解决这个问题,Scality最近发布了一款开源产品(S3 Server)——一个单一实例对象存储。S3 Server缺乏RING的耐用性,可用性和可靠性特性,但Scality对该产品的定价策略非常好(收取每个节点的年度订阅费用),是一款简单的入门级产品
SwiftStack 4.0是基于OpenStack Swift的商用产品。用户群虽然增长很快,但与市场其他解决方案相比仍然相当有限,原因可能是推出了一个好的S3连接器,还有NFS和SMB网关的延迟。
产品内部设计显示不同类型的专用节点可以根据用户需求进行扩展的,并且还可以针对小规模部署客户折叠成几个物理节点。
附加厂商
我们决定在这项研究中增加一些值得关注的供应商。其中一些与市场相关,但由于其销售模式或纯硬件方案的转变,我们无法使用先前确定的向量给出评级。
IBM Cleversafe
2015年11月IBM收购Cleversafe,后者如今是IBM云部门的一部分,即IBM Cloud Object Storage。产品具有可用性,但IBM云战略更侧重于销售服务而非产品,这也相应地改变了产品的路线图。实际上,它现在经常被定位为亚马逊AWS S3的竞争对手(在路线图中支持Swift API)。
由于内部架构,最小配置容量也相当大(在500TB/1PB范围内)。当产品作为服务销售时,它可以以更小的容量起步,并且免费层可用于测试。 IBM Cloud Object Storage正在全面改进产品(多租户,安全性和其他以企业为重点的功能),但正在放弃其他有利于S3的接口。然而,它拥有许多认证的第三方解决方案,如远程NAS网关,同步和共享,以及与备份系统的集成。
HGST Active Archive
HGST Active Archive系统作为预安装系统(硬件,软件,管理,网络)解决方案销售,这就是它不包含在“Disruptive Vectors”图表的原因(其中首选支持纯软件解决方案)。
Active Archive是市场上最好的擦除代码实现工具之一,但其配置方案从672TB起步。单位GB价格尤其是在全机架(5.8PB)配置中非常有竞争力,即使有故障的磁盘或节点也能保持非常好的吞吐量,它还可以向外扩展35PB以上容量。
OpenIO
OpenIO是法国的一家开源对象存储初创公司。它能以三个节点启动,并扩展到多PB的配置。后端架构具有非常强大的负载平衡机制,可以使基础架构相当快速地发展,而没有传统对象存储系统的缺点(例如,增加新节点后的哈希表重建)。
该架构还允许公司开发Grid for Apps,这是一种新的无服务器技术,可以直接在存储系统上运行特定的工作负载。
未来展望
HDS作为生态系统和企业就绪功能的领导厂商,但每GB容量的价格不是同类产品中最好的。它还推出了自身的经济存储节点,但如果终端用户希望为各种数据和工作负载构建大型可持续基础设施,那么其自主性和敏捷性可能会受到限制。这个解决方案更适合专注于私有云存储应用程序的小规模环境。
NetApp正在建立一个类似的生态系统,虽然这个解决方案在面向协作的UI(用户界面)和功能方面不尽如人意,但它已经表现出了一个有趣的生态系统和路线图。它是HDS一个很好的竞争对手,特别是对于现在可以集成主存储和二级存储的NetApp客户而言,并且未来有可能更具可持续性,。
目前,如果客户在可扩展性和高端功能方面寻求最佳解决方案,那么Scality是最可靠的解决方案。不过遗憾的是,后端架构问题以及缺乏易用性,难于部署使得解决方案难以在300TB之外采用。该公司最近发布了新型S3 Server——一个单节点对象存储系统,可以帮助部分覆盖100-300TB范围内的一些企业用例,但目前缺乏HA和弹性功能。如果高性能和可扩展性是目标,DDN可能是一种替代方案,但公司因为合作伙伴生态系统受限,而仍然极为专注HPC和其他一些垂直市场。
中小企业的其他有价值的替代方案可以是Cloudian和Caringo。可用性高,产品也易于安装和管理,而且它们都可以用作纯软件或预安装设备,可以开始小规模部署,然后按需发展,并且都有一套好的第三方认证解决方案。
开源解决方案(Ceph)在总体采购成本(TCA)方面很有趣,但从长远来看,TCO(总体拥有成本)可能会成为问题。
对象存储没有“一刀切”的解决方案。但根据经验,选择合适的平台取决于终端用户的规模,所管理的数据量(也考虑潜在的整合和增长)以及可用的技能。根据以上情况,我们可以将市场分为三个细分市场:
——小容量(300TB以下):终端用户寻求易用性和端到端解决方案;
——中型容量(300TB-1PB):重点是功能集,易用性第二,与第三方集成是一个重要因素;
——大容量(1PB +):每GB容量的价格,可扩展性,性能,整体效率,API都是评估标准的首选。
纯软件解决方案一直是首选,为终端用户提供更多自由,并在需要时单独执行硬件和软件更新。这种方法从技术和财务角度出发为终端用户提供了最佳解决方案。
通常通过上层(网关和应用程序)交付的安全性正在成为某些对象存储系统的核心组件,对于第二代客户而言,它正在成为最重要的一方面,尤其是在访问对象存储时通过API本身或通过现有的身份管理系统进行集成。