数据驱动创新:品高云数据湖亮相2018数博会

“数据驱动创新”是2018数博会的热门议题。

信息化蓬勃发展,带来数据的爆发式增长。在云计算和大数据时代,基于数据开展生产、运营、决策成为常态,数据的存储及应用体系成为企业生态运转的中枢神经。但面对海量的数据规模,传统数据架构尚能饭否?

品高云大数据解决方案总监李伟文在2018数博会中向前来品高云展台的观众介绍说,数据架构技术演进经历了三个阶段,品高云则给出了第三阶段的最佳实践。

大数据架构技术的三个阶段

1.0阶段

主要是基于关系型数据库的传统数据仓库。该架构技术上主要采用Oracle、DB2、SQLServer等RDB构建,主要满足结构化数据的报表分析、离线分析、统计需求和场景,主要实现“为什么发生”。

2.0阶段

主要以Hadoop为基础,集成NoSQL数据库、MPP、流计算技术、全文检索技术、机器学习、图计算,构建满足结构化、非结构化的多种场景需求,技术生态庞杂,主要实现“为什么发生、正在发生什么、以后会发生什么?”,2.0时代无法有效解决异构技术融合、跨部门、跨层级的数据共享和数据主权问题。

3.0阶段

主要以数据湖架构理念为基础,依托存储计算分离架构,融合云计算SDN、对象存储、弹性计算等技术,无缝融合大数据复杂的技术生态。实现“一份数据,多种计算”,灵活满足跨部门异构计算技术,有效解决跨部门、跨层级、跨组织边界的数据共享和开放问题, 使得数据拥有权、数据使用权、数据管理权等“数据三权分立”,帮助大型企业、集团性企业、政府部门构建可持续发展的的数据生态。

数据湖架构的基础技术理念是存储计算分离

李伟文表示,数据湖架构的基础技术理念是存储计算分离,分离后,可以带来诸多优势:

• 存储引擎和计算引擎可以独立扩展;

• 存储引擎存储一份数据,上层通过标准协议可对接Hadoop、RDB、Spark、MPP等主流大数据技术,各组织可采用根据应用需要个性化的计算引擎;

• 大数据技术发展日新月异,在引入新技术或者替换旧计算技术时,数据无需迁移,只需替换上层计算引擎即可;

• 存储引擎剥离后,相对Hadoop薄弱的数据安全问题,数据安全得到质的增强,各部门在存储引擎上的数据完全隔离,对数据具有数据拥有权和管理权,并通过授权审批获得数据使用权。

• 存储引擎支持外表直连技术,各计算引擎可通过外部表直接使用数据,而不需拷贝。

• 可有效支持弹性计算,在计算完成后,可回收资源,提升资源的利用率;

三代数据构架技术横向对比

为了进一步展示三代数据构架技术的差异,从扩展性、数据多样性、技术融合等多个角度对比三种架构得出下图:

品高云数据湖亮相2018数博会

在贵州贵阳举行的2018数博会中,品高云与Google、微软、阿里云等国内外云计算、大数据巨头同时亮相,品高云旗下的BingoInsight基于数据湖架构的大数据平台作为国内首个私有云数据湖,受到了莅临会场的众多大数据专家和用户追捧。

作为3.0阶段的数据架构技术,品高云数据湖的推出,就是为了解决传统数据架构技术不能解决的问题,诸如:

1. 难实现异构技术融合

技术层面看,大数据技术生态繁荣,发展日新月异,Hadoop、Spark,MPP、NoSQL、kafka、机器学习、深度学习不断发展,不同技术解决不同问题,企业的大数据平台必定是混合式的架构,如何有效融合异构的技术成为企业构建大数据平台必须面临的问题。

2. 数据孤岛有待打破,实现统一数据汇聚和共享

数据层面看,跨部门、跨企业、跨行业的数据融合需求日趋明显,数据关联碰撞也是激发数据创新的基础,如何有效打破数据孤岛,解决数据主权,实现统一的数据汇聚和共享是企业面临的另外一个关键性问题。

Gartner看好的国内首个私有云数据湖

品高一直致力于耕耘企业级市场,在大数据概念兴起阶段逐步洞察到大数据技术在企业落地的挑战,凭借敏锐的市场嗅觉,顺应市场趋势,经过两年研发在2017年初推出了基于私有云的数据湖整体解决方案,以帮助企业和组织构建私有的大数据平台,使组织级的大数据应用及价值创新成为可能——这是国内首个基于私有云的数据湖解决方案。

品高云数据湖架构示意图

品高数据湖解决方案包括5部分,分别为:数据湖存储、数据集成、数据处理、数据管理和数据消费。有意思的是,在Gartner2017年推出的一份数据湖最佳设计实践报告中指出,保障数据湖成功落地需要重点考虑数据集成、数据探索和开发、数据治理、数据消费等四个方面,可以说,品高数据湖解决方案与Gartner观点不谋而合。

为此,2017年底,Gartner联袂品高云推出了一份名为《基于数据湖架构的大数据平台》(Big data platform based on Data Lake Architecture)的报告,双方就数据湖(Data Lake)的现实挑战、技术实践与发展趋势展开了探讨。点击左下阅读原文了解详情。

为了更好便于读者了解,如下列出了品高云数据湖的最佳应用场景,包括:1、应用于跨企业、跨行业的数据联盟;2、作为大数据平台的数据存储;3、实现组织跨部门间的数据共享;4、利用数据湖,促进产学研的合作;5、推动政府数据共享开放模式的创形性升级;6、全量数据汇聚,交叉碰撞分析支撑决策等。

品高云数据湖部分应用场景

此刻,2018数博会已经接近尾声,但是国家层面对大数据建设的重视,对数据驱动创新的期待正在稳定增长中。而推进政府和公共部门数据资源统一汇聚和集中向社会开放,已经重要的国家战略。目前,应运而生的BingoInsight云数据湖已经在政府、公安、集团性企业等行业开启了大规模部署工作。随着众多数据湖项目相继进入实施尾声,我们将在未来为大家带来更多数据湖建设的典范案例和应用经验,敬请期待。