杉岩CTO邱尚高:AI+数据湖时代,对象存储不止步于存储

11月18日,由百易传媒(DOIT)主办的2020中国数据与存储峰会在北京盛大开幕。众专家与行业代表同台探讨新数据时代存储技术发展趋势,分享数字化转型成果,共话智慧未来。杉岩数据CTO邱尚高携“AI+数据湖时代,对象存储新未来”的主题演讲出席峰会。

图1.杉岩数据参展2020中国数据与存储峰会

邱尚高在演讲中提到,以5G、大数据、人工智能为代表的新兴技术深入行业应用,智能在“端、边、云”延伸,数据的种类和数量越来越多,企业对数据价值的诉求也更趋强烈,传统基础设施面临着前所未有的挑战。基于数据湖构建集数据汇聚、加工、分析、利用于一体的基础架构成为企业市场的重要趋势。

纵观国内,不论是公有云厂商还是私有云厂商,纷纷基于对象存储推出差异化的数据湖解决方案。对象存储凭何优势,能够成为数据湖存储底座的不二之选?在AI+数据湖时代,对象存储又迎来哪些新的场景?针对上述问题,邱尚高作了系统地阐述与分享。

图2.杉岩数据CTO邱尚高出席峰会并作主题演讲

一、为什么是对象存储?

从2006年亚马逊推出公有云存储服务(Amazon S3),到2012年阿里云存储服务(OSS)的面世,再到2016年杉岩数据率先推出企业私有云对象存储产品(MOS),对象存储因互联网而生,面对海量数据场景具备天然优势,逐渐成为大数据时代存储界的后起之秀。

随着数据湖架构在企业市场中的需求越来越广泛,存储作为整个数据湖架构的核心要素,承载着企业近乎全部的数据资产。对象存储究竟有何优势,能够赢得业界青睐,成为数据湖存储底座的最佳之选?

1.存储全类型数据

对象存储采用弹性的分布式架构,灵活对接各类应用,可汇聚不同类型、不同大小的数据资源(包括结构化、半结构化、非结构化数据,大文件、小文件)。

2.支撑海量规模

传统文件存储采用树形结构,文件增多,目录层级多,访问性能骤降。对象存储采用“桶-对象”的扁平化结构,通过HASH计算检索文件,海量场景仍然保证高性能,轻松支撑EB级容量空间、千亿级文件规模。

3.多源数据统一接口

对象存储基于标准的S3或OSS接口,实现私有云与公有云数据自由流动,以及异构存储资源纳管。

4.云原生支持

文件存储限于局域网访问且需要OS挂载,对云场景支撑乏力。对象存储天然支持跨互联网访问,无需OS挂载更轻量,更适应云原生应用。

5.混合云架构

为了满足业务合规与敏捷性需求,越来越多的企业选择将互联网应用部署在公有云,以满足弹性、敏捷的需求;将重要数据存放到私有云,以满足安全、合规的需求。对象存储通过S3或OSS接口可无缝对接公有云,快速构建混合云基础架构,在云端与本地之间实现应用平滑迁移和数据自由流动。

通过以上维度对比,对象存储的优势显而易见。

二、对象存储将成为数据湖的数字底座

从国内外市场需求来看,国外的企业或组织更倾向于采用公有云基础设施,而国内企业则是更倾向于私有云,也因此形成了公有云数据湖和私有云数据湖两种方案,这里选取3家代表厂商进行简单介绍。

作为全球公有云市场的领导者,亚马逊以对象存储(S3)作为数字底座,储存来自不同数据源的结构化、半结构化和非结构化数据,通过安全策略和访问控制保障数据安全,同时支撑数据检索查询、用户界面访问以及数据分析处理等能力。

阿里云同样是以对象存储(OSS)作为数字底座,将阿里云上的日志服务、App/Web、数据集成等产生的超过10000种数据文件类型保存在OSS上,实现海量的数据汇聚,消除数据孤岛;同时为MaxCompute、EMR、机器学习等平台提供支撑,无缝对接超过100种计算引擎,赋能业务创新。

图3.阿里云基于对象存储OSS构建数据湖方案

作为国内对象存储市场的领导者,杉岩数据也推出了面向私有化场景的智能数据湖解决

方案。该方案基于MOS海量对象存储构建海量空间,实现数据库、非结构化文件、流数据等多源数据汇聚;通过纳管异构存储实现硬件利旧;通过高性能数据湖文件网关MosFS对接Hadoop、TensorFlow等分析处理平台,深化价值利用;一体化方案赋能业务创新,为智慧金融、智能制造、智慧教育等行业变革提供基础架构支撑。

图4.杉岩数据基于MOS对象存储的数据湖方案

三、AI+数据湖时代,对象存储的新场景

对于企业客户而言,贴合实际场景、解决当前痛点、满足未来就绪的方案才是好方案。邱尚高结合一些新兴的应用场景,向与会人士介绍了MOS对象存储以及智能数据湖方案如何为客户创造价值。

1.大数据存算分离

传统大数据分析平台(如Hadoop)存在诸多弊端:HDFS多采用三副本,空间利用率低;存储与计算捆绑扩容,拉高成本;Hadoop升级不够灵活,无法享受新版本计算特性。杉岩方案可提供存算分离架构,MOS支持纠删码和冷热数据分层,使磁盘利用率提升80%;存储与计算独立扩容,有效降低成本;存储与计算独立升级,更加灵活。

2.数据智能处理

MOS依托智能数据处理引擎,将数据处理能力下沉到存储系统内部。基于策略触发,MOS海量对象存储可以自动完成图片转码、视频抽帧、OCR识别等处理任务,简化业务流程,提升处理效率。以智能制造为例,杉岩MOS已经帮助UTAC(联测优特半导体)提升智能质检效率,通过生命周期管理策略设定,在MOS内部完成质检图片的存储、格式转换、冷热分层和过期自动删除,节省80%存储空间,大幅降低成本并简化了业务流程。

3.机器学习

在MOS之上通过MosFS高性能数据湖文件网关,为TensorFlow等机器学习平台提供原生的HDFS接口、S3/OSS对象接口、POSIX文件接口,满足AI算法的模型训练和推理、数据归档的需求。以自动驾驶场景为例,车辆采集的视频、雷达数据通过文件或对象接口导入MOS,然后通过HDFS接口对数据预处理,预处理结果再通过文件接口由计算服务器进行AI训练和高性能仿真,从而得到新的算法和模型进行下一轮测试。整个过程中,一套存储同时在线、近线、离线使用,数据集中归档无须拷贝,空间利用率更高、数据更安全。

4.IPFS(Inter Planetary File System)

IPFS场景对底层存储的需求可归纳为几点:庞大的算力集群要求存储吞吐量在100Gbps以上,以保证封装数据的写入效率;每天48次(30分钟一次)的全量证明需要极高的随机读取效率;数据持续可读(历史数据不删除)使得增量巨大(每周PB级),要求存储提供EB级以上容量;超大容量必然由超大集群支撑,高效运维也是刚需。杉岩MOS除了提供EB级海量空间和300Gbps以上的超大吞吐量,还专门针对IPFS数据读作性能优化,将数百次随机读请求合并为一个请求,极大提升效率;基于纠删码(22+2)技术,空间利用率超过91%,硬件成本缩减60%以上;通过多故障域隔离和智能DNS分配技术,轻松管控超大规模存储集群,在提升数据可靠性的同时降低运维复杂度。

5.云原生OLAP

对海量非结构化数据的分析需求催生了云端数据湖的应用,杉岩针对云原生OLAP场景同样提供了解决之道,通过MOS无缝对接云原生的数据湖,帮助企业快速构建高性能的OLAP服务。对“HDFS+传统数据仓库”而言,海量场景下的性能、并发性和易用性成为难以避免的灾难。杉岩的“MOS+云原生数据仓库”方案,依托弹性架构提供更强的扩展性、高可用性和并发访问能力,在EB级海量数据面前保证优异性能,利用纠删策略、数据分层等特性尽可能降低成本,采用存算分离架构极大提升灵活性,帮助客户对海量数据极速分析,轻松把握商业趋势,及时应对各种变化。

不难看出,杉岩数据植根场景需求,已经围绕MOS海量对象存储构建起了相对完善的数据湖解决方案,为企业应对数据挑战、推进业务创新提供了新的、极具竞争力的选项。