从安全、稳定、高可用、高性能、智能等维度看阿里云存储 2018

2008年,为了探索阿里巴巴集团大规模存储解决之道,阿里云存储自研飞天大规模的分布式存储引擎(盘古 1.0 ),从写下第一行代码开始,阿里云存储的进化之路正式开启。

作为阿里云飞天系统里极其重要的一环,阿里云存储的使命不仅解决了双 11、双 12、蚂蚁金服等集团大规模业务对存储系统的超高要求和挑战,还通过 IDC 到云上的整体存储解决方案,打破了数据存储和流通的边界,满足不同企业的多样化需求,为企业数字化转型提供数据核心价值。

2018年,经过十年的技术发展和进化,飞天分布式存储引擎正式升级为盘古 2.0 , 具有软硬加速、极致性能、智能运维、海量规模、坚若磐石、广谱适应等六大特点,为阿里巴巴集团、阿里云智能业务的稳定运行提供强大的技术能力支撑。基于盘古 2.0 ,阿里云提供块存储、文件存储、对象存储、表格存储、HDFS 存储等存储基础服务、备份、容灾、日志服务、智能存储、在线/离线迁移、数据湖管理等存储数据服务和数据密集型行业解决方案。

可以说,阿里云存储已从技术、产品、服务等方面完成了全面进化。本文盘点了过去一年来,阿里云存储的关键性产品技术成果。

安全篇

阿里云始终将数据安全以及用户隐私作为第一原则。为此,阿里云围绕如何防范“数据不丢失”、“业务不中断”、“数据不外漏”“数据不丢失”等方面,不断夯实自身安全能力。

2018年6月,阿里云正式对外发布国内第一家云原生混合云备份服务和混合云容灾服务,提供云上备份与云容灾的保护能力,客户可实现灾备方案的分钟级部署,有效保护数据并实现业务的连续性。

HDR For Big Data 是国内首个支持混合云架构下 Hadoop 集群双活容灾方案,它可以部署于不同数据中心的Hadoop集群之间实现双向复制,解决了传统基于快照+distcp 复制技术环境下恢复点目标( Recovery Point Object ,简称 RPO )长达数小时甚至数天级别的难题,实现秒级 RPO 能力。

阿里云对象存储 OSS 的 WORM 特性,允许用户以“不可篡改、不可删除”的方式进行云上数据合规存储,OSS的数据加密功能涵盖线下本地加密 SDK、云上KMS 加密并支持用户以 YBOK 密钥进行加密,大大提升数据安全与合规能力。

NFS 传输加密是文件存储 NAS 新推出的基于 NFS 4.0 的传输加密功能,用户可以通过 NAS 提供的工具透明地使用 NFS 传输加密功能,充分保证用户数据在传输中的安全性。

稳定性篇

2018 年,盘古 2.0 作为阿里云智能、蚂蚁金服存储引擎,圆满通过双 11 和双 12 大促的考验,总数据量达到数百 PB ,稳定性经受住了严苛的考验。并支持了 ESSD 云盘的公测及并行文件存储 CPFS 在国家天文台 FAST 项目的输出。

过去一年,盘古团队与阿里云各技术、业务线团队一起攻克多项技术难题,让诸多新技术规模化落地同时,存储的整体稳定性得以持续提高。 SPDK QoS 技术的应用,实现数据通路 IO服务质量控制,帮助 ESSD 云盘有效控制 IO 长尾。

通过软硬一体设计,端到端的解决了 RDMA 网络协议上的弱点。同时建立了 RDMA 网络故障报警机制,有效提高 RDMA 网络全链路问题诊断响应速度,让阿里云存储成为业内屈指可数的大规模应用 RDMA 技术的存储厂商。

新一代数据动态迁移算法的研究成功,将数据迁移速度提升 3 倍,大幅缩短硬件故障对数据稳定性的影响时间。 AI 智能运维、故障预测的全面应用使得阿里云存储服务在规模不断增长的情况下,稳定性进一步提高。

高可用篇

阿里云国内首家发布同城 3AZ 部署能力的云上对象存储产品,可满足企业级客户对于”发生机房级灾难事件时数据不丢失,业务不中断“的需求。相比于建设线下同城容灾机房,OSS “同城区域冗余”存储提供 99.95% 的可用性SLA指标、12个9 数据可靠性和一键部署云上同城容灾服务能力。结合此前OSS发布了“跨区域复制”能力,可实现机房、同城、跨地域三级完整的容灾服务能力。

阿里云将块存储在公共云上多年积累的技术沉淀在 Apsara Block Storage 上,专为企业级客户量身打造。2018 年 6月,阿里云 Apsara Block Storage 产品正式发布,兼容多种类型的计算平台,构建高可用的大规模分布式块存储服务平台,可帮助客户轻松应对云时代下海量存储资源的敏捷存取需求。

高性能篇

2018 年6月,阿里云在推出了全新一代的超大规模、超高性能分布式块存储产品“ ESSD 云盘”,将单块云盘性能提升到 100 万 IOPS ,百微秒级别延迟的全新高度,并通过了应用规模超过数十个 PB ,史上最大的高并发 IO 挑战的 2018 双 11。

新一代分布式存储引擎盘古2.0在过去一年中攻克多项技术难题,让诸多新技术在多个业务场景上得到了大规模验证。如 RDMA 技术,相比 TCP 延迟降低几百us,完成了业界最大规模 RDMA 集群的稳定运行;如 SPDK 技术,削薄了存储软件栈,大幅提升了性能,帮助业务及时享受到新的软硬件相结合的技术红利;Run-to-completion 线程模型、全栈用户态 IO、无锁无线程切换等新架构使得软件栈 Latency 降低到了us级。

对象存储 OSS 提供的 Serverless 图片处理,首次大规模应用到双 11 的天猫宝贝主图处理场景。OSS 基于阿里云弹性计算提供的 FPGA 云服务,采用 HLS (high-level synthesis,高层次综合)技术自研了 Resize 和 WebP 编码模块,部署了业界最大规模 HLS 异构加速集群,使图片处理单机吞吐提升了 6 倍,时延下降10%-20%,做到了和软件无差异的压缩效率,优化了用户体验。

智能篇

基于盘古 2.0 提供的智能日志服务,针对 Ops(DevOps、SecOps、NetOps)常见问题提供智能分析、机器学习等算法帮助洞察问题,提升了开发与管理的效率。

阿里云智能存储以文档管理、图片管理和视频管理型发布等功能为云上文档、图片等数据提供一站式处理、分析、检索等管控,对不同的业务场景封装整合完整的处理能力,让数据快速流转,高效支持应用,为企业办公、在线内容管理平台、在线教育、手机相册等多种类型企业客户提供文档处理服务。

在数据智能化处理方面,对象存储 OSS 支持用户使用 SQL 查询文件的内容,使得数据提取更简单、更快速。并在多个计算场景不断优化,与多个开源社区和计算产品深度结合,采用计算存储分离设计,构建企业级存储的数据湖生态圈。

表格存储 TableStore 着力打造多元化的索引功能,SearchIndex 提供多维度条件组合检索能力,支持时序数据、元数据、轨迹数据等丰富应用场景下的数据管理; GlobalIndex 为用户提供数据的多维度组合、重排序等功能。借助多元索引能力,用户可快速查询、分析数据,提升数据的使用价值。