品高云数据湖:全生命周期的数据开放支撑

云计算和大数据技术的全面运用,令数字经济成为新常态,大数据技术及应用需求也随着时代的步伐快速升级迭代。很多企业发现,随着业务规模的不断扩大,如何有效融合不同来源和类型的数据构建企业大数据平台,为生产和经营所用,是亟待解决的主要矛盾;另一方面,如何在打破数据孤岛的同时保护数据主权,实现统一的数据汇聚和共享,是大多数企业正面临的另一个关键问题。联系客服小表妹(VX:pingaoyunzzm)了解更多。

与此同时,亚马逊、微软等大厂商凭借灵敏的市场嗅觉,在2016年纷纷顺应市场诉求推出了基于公有云的的数据湖解决方案,帮助企业构建大数据平台。基于对用户需求的理解与对行业趋势的前瞻,品高在2017年初推出了基于私有云的数据湖整体解决方(BingoInsight),帮助企业和组织全面应用大数据,构建可持续发展的数据生态。

一、数据湖是什么?

品高云数据湖通过深度融合云计算和大数据技术,可实现全数据形态的共享存储,提供包括数据资源发布、数据存储、数据编目、数据使用即数据评价等全生命周期的数据开放支撑,并可通过联邦数据湖解决跨组织边界的数据主权和数据信任问题。

基于品高云数据湖解决方案,用户可有效实现跨部门、跨组织、甚至跨行业的数据汇聚、共享、交换和开放,构建可持续交付的数据生态链,从而通过数据关联进一步挖掘数据价值,推动数据创新,激活数据资源的价值,提升数据应用能力。

品高云数据湖产品功能示意图

二、数据湖能解决什么问题?

品高数据湖的包括5个解决方案,分别是数据湖存储、数据集成、数据处理、数据管理以及数据分析和消费。值得一提的是,Gartner的《数据湖最佳设计实践》报告指出,保障数据湖成功落地需要重点考虑数据集成、数据探索和开发、数据治理、数据消费等四个方面,可以说,品高数据湖解决方案与Gartner观点不谋而合。以下是对这5个部分的介绍:

● 数据湖存储基于品高云对象存储技术实现,能够存储全数据类型(结构化数据、文本、图片、音视频等)的存储,可与Hadoop、Spark、Greenplum等主流大数据计算技术无缝集成,可以实现多个租户的数据隔离和共享,支持大文件切片、多节点并发传输。

● 数据集成是将数据提取、转换和加载的过程,以自动化的形式从源系统中提取数据,转换成一致的格式,并加载到数据湖中。品高数据湖提供数据湖集成工具,保障异构数据源能够快速、鲜活的流入数据湖。

● 数据处理是通过数据集成完成数据湖的数据集中后,品高提供内置的Hadoop套件,帮助用户快速探索、分析和处理数据湖的数据。

● 数据管理是通过元数据管理、数据目录、数据监控统计、数据质量等手段,实现数据湖数据的可读、可检索、可管理和可用性。

● 数据分析和消费是指当大量数据被采集到数据湖中,经过开发处理,再将处理后的可用数据存入回数据湖,为各类大数据分析应用提供数据支撑。品高数据湖方案中提供大数据分析平台,帮助用户解决数据可视化问题,提供仪表盘、报表、数据地图、自助分析等多种分析工具。除此之外,我们还可以支持第三方的数据分析工具、以及用户自己开发的分析工具等。

三、数据湖如何应用?

基于品高云数据湖解决方案的功能特性和创新点,我们在此列举了3个适合应用数据湖方案的典型应用场景。

场景一:跨组织边界的数据共享

跨部门间数据共享示意图

需求和挑战

跨组织边界的技术融合和共享权限问题、数据共享问题、缺乏数据运营体系问题。

应对和解决

品高数据湖方案通过深度融合云计算和大数据技术,通过本文所述的数据集成、数据开发、数据管理、数据消费等四个方面的创新能力,解决跨部门、跨组织、跨行业的数据共享和开放,帮助组织构建可持续、健康的数据生态链,通过数据关联进一步挖掘数据价值。

场景二:促进基于数据的产学研合作

产学研合作示意图

需求和挑战

政府机构、大型企业拥有大量生产数据,但技术储备和算法模型较弱,而高校、科研机构有技术、有算法模型,苦于没数据。

应对和解决

利用数据湖建立生产和科研的桥梁,通过数据湖将行业生产数据脱敏后存储到数据湖,开放给科研机构、高校进行研究性探索,同时,研究成果可应用回企业,能够有效促进基于数据的产学研合作。

场景三:联邦数据湖

跨组织联邦数据湖示意图

需求和挑战

跨组织部门数据湖建设如果通过统一的数据湖来集中管理所有数据,可能会存在组织间的数据互信、数据主权、数据安全等一些列问题。

应对和解决

品高数据湖提供去中心化的联邦数据湖,平台基于联邦数据湖实现跨部门、跨组织的数据共享,并通过数据开放平台,将数据相关的目录、工具、服务、模型开放出来,各组织和数据模型相关软件开发商均可在上面进行数据协作,帮助企业、政府构建可持续发展的数据生态链。