数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。
概述:
云端数据湖解决方案是一套基于云计算构建的数据湖解决方案,采用QingStor® 对象存储作为数据湖存储,HashData作为数据湖计算引擎。云端数据湖解决方案可以低成本存储海量数据,规模无限扩展,支持多种数据种类(包括结构化、半结构化,多结构化等),并可以运行不同类型的分析(包括SQL查询、可视化、机器学习等),为企业运营提供更快、更精准的业务决策。
挑战:
海量数据
数字化转型浪潮已经席卷各行各业,企业在数字化过程中会积累大量数据,特别是IoT设备、移动应用程序和社交媒体产生的数据呈现井喷之势。如何更好地存储这些海量数据,并利用这些数据提升企业智能化水平以及数字化服务能力,成为新的挑战。
Schema-on-Read
除了来自事务系统和业务线应用程序的结构化数据外,企业中来自IoT 设备、移动应用程序和社交媒体产生的数据多为半结构化、非结构化数据。在捕获数据时,未定义数据结构 (Schema),传统处理海量数据的数据仓库软件无法对没有数据结构(Schema)的数据入库,需要一种新的处理方法快速处理这些数据。
数据湖与数据仓库有何不同:
架构图:
方案特点:
弹性计算
- 计算存储分离
HashData采用计算存储分离架构,数据存储到QingCloud对象存储上,计算层采用基于Greenplum内核的MPP计算引擎。相对于计算存储绑定架构,计算存储分离在保证查询需求同时,可大幅减少服务器资源成本。
- 在线扩容
支持在线实时弹性扩展,最快 15 分钟即可完成。当需要少量计算时,用户可以启动小集群,当计算量增加时,用户可以在几分钟内对集群进行扩容,而不需要迁移数据,可轻松应对超大容量及超高并发请求带来的性能挑战。
海量存储,无限扩容
- 海量存储
QingCloud对象存储是面向海量非结构化数据的通用数据存储平台,提供安全可靠、低成本的云端存储服务。可存储任意类型、任意数量、任意大小的文件。数据持久性达 99.999999999%,服务可用性达 99.99%。
- 无限扩容
系统可无限水平扩展,且在存储容量水平扩展时,数据存取的性能线性提升。可承载无限存储空间,每个存储空间的容量亦可无限扩展。
性能不变,成本更低
- 多级存储
对象存储IO速度比块存储低,HashData 创新缓存技术采用了多级存储架构,持久层数据采用对象存储,Cache层采用基础型块存储或 SSD企业级存储,通过HashData自带的冷热数据管理功能保证了数据查询性能,可保证性能不变。
- 存储成本更低
采用对象存储,成本只有传统解决方案的 1/10。传统方案采用磁盘来存储数据,HashData数据湖采用对象存储作为持久数据存储。对象存储的成本是磁盘的1/5左右,是SSD的1/10左右,有明显价格优势。
应用场景
云端数据湖解决方案可广泛应用于工业数据湖、用户行为分析和医疗数据湖。