云原生数据湖的探索和实践:当汇量科技 EnginePlus 团队来到阿里云峰会

从人工智能,到大数据,再到云计算,新技术的革命无处不在,不仅深刻改变着我们的日常生活,也已经成为产业数字化转型的必经之路。目前,我国人工智能核心产业规模已超过千亿元,全国在用数据中心机架数的总规模近400万架,大型以上数据中心超过250个。

扑面而来的数字浪潮之下,转型中的企业如何辨明方向、找到最适合自己的抓手和方案?

5月28日,“2021阿里云峰会”在北京开幕。此次峰会以“云上创新”为主题,阿里云与众多嘉宾、合作伙伴共同探讨了企业数字创新的新思路、新策略、新产品、新方案,展开“云上创新”的全景图。

在28日下午举行的“全链路数据服务-大数据及AI论坛”分论坛上,汇量科技 (Mobvista)资深算法架构师、EnginePlus 产品负责人陈绪受邀发表演讲,与嘉宾们分享了云原生数据湖的探索和实践,并介绍了汇量自研开源数据湖框架 StarLake 与新一代“一站式云原生大数据 AI 平台” EnginePlus 。

从数据仓库到湖仓一体:数据分析架构的演进

随着企业业务的快速扩展,衍生数据量面临爆发式增长,企业对数据处理分析的需求日趋迫切。在此背景下,创新技术与方案成为企业刚需,用以解决数据智能处理的挑战。

陈绪介绍称,云原生的数据分析架构,经历了从传统数仓,到数据湖,再到湖仓一体的演进。


汇量科技资深算法架构师、EnginePlus 产品负责人陈绪发表演讲

传统数据仓库强调结构化数据,在当今的互联网应用中会导致建模繁琐、流批架构复杂等一系列问题,传统的 hive 等方案也不再适配云原生的演进趋势。在这种背景下,数据湖应运而生。

数据湖解决了数仓的部分问题,例如实现非结构化数据的处理、流批一体化等等,此外,云上元数据和对象存储能力也在持续不断地演进、优化。在 OSS 的支撑下,计算和存储能够更好地实现分离,数据湖的能力由此得到扩展。

因此,数据湖和数据仓库的功能进一步整合,已经成为当前的趋势。

陈绪表示,从业务视角来看,理想的湖仓一体是以数据湖为“底座”,具备元数据管理强拓展性,同时优化对象存储访问的性能,进而能够优化宽表的实时多流摄入能力,最终能够统一支撑分析和科学 AI 的应用场景。

StarLake:汇量科技自研开源数据湖框架

据悉,为在互联网业务中实践数据湖和湖仓一体化,汇量科技自研并开源了数据湖框架 StarLake,实现大规模数据的实时摄入和更新,高效构建湖仓一体化分析平台,能够更好地解决开发者上云和数据处理的挑战。

据介绍,相比开源同类数据湖框架,StarLake 具有以下特点:

1、支持多级分区和 Range、Hash 两种分区模式,在 Upsert 场景上有较明显的性能提升,能够支撑实时宽表的能力;

2、采用分布式 DB 实现元数据管理,在扩展能力上进一步提升;

3、针对对象存储的专门优化: 通过重写文件解析层与存储层融合,达到计算和 IO 并行化;

4、同时支持 Copy on Write 和 Merge on Read 模式,支持高并发的写入能力;

5、将元数据、分区规则等进一步下推到计算引擎层,进行联合算子优化,提升查询分析的性能。

陈绪提到,在汇量科技,StarLake 数据湖框架并非“单兵作战”,而是作为新一代一站式云原生大数据 AI 平台 EnginePlus 的一部分,在云原生的架构下,更好地为企业提供服务。

EnginePlus:新一代一站式云原生大数据 AI 平台

记者了解到,在 EnginePlus 平台上,StarLake 数据湖可以实现高效的数据摄入,为分析、计算提供“底座”,同时还可无缝对接汇量科技自研的开源机器学习框架 MindAlpha ,对数据进行人工智能建模。

EnginePlus 通过将大数据与云计算、人工智能等信息技术融合创新,实现数据摄入、数据计算、模型训练、在线预测的一站式闭环,帮助客户有效提升数据处理的效率与精准度。在大规模业务的生产验证下,EnginePlus 兼具快速接入、简单易用、高性能、高稳定性等特点。

陈绪举例称,在典型的个性化算法业务场景里,会存在多个实时流,包括用户数据流、item 数据流、交互数据流、离线数据等,通过 StarLake 数据湖框架,实时流可以直接并发入湖,使多个维度的更新同步进行。

结合 OSS 为数据湖提供的存储能力,就能搭建起一个实时化的宽表,在这个过程中,基本消除了传统数仓建模和 ETL 流程,随后就可以对接分析、BI 和 AI 的计算。

如此,业务流程变得更加敏捷,数据架构得到了大幅简化。据了解,这套架构已经在广告、电商、风控等场景得到落地使用。

数据湖场景下,云商产品去向何方?

作为云原生数据湖的深度用户,汇量科技从业务视角分享了 StarLake 数据湖框架的架构实践。从架构角度,针对数据湖的场景,汇量科技希望未来云厂商在产品功能上如何进一步发展?

在演讲后的圆桌讨论环节,陈绪提出,站在互联网业务和云原生架构视角看“湖仓一体”的演进,未来将会是应用场景和底层架构融合“co-design” 的趋势。

陈绪认为,EnginePlus 的数据湖组件 StarLake,根据业务场景以及面向云上对象存储需要有新的融合设计,这同时也是一种新的“co-design”;在湖仓一体趋势中,大家也看到了对象存储和应用层的融合——例如,近期 OSS 推出的加速器就是一个很好的功能;未来,云厂商在对象存储上进一步提升元数据管理、一致性、并发吞吐等能力,更好地支撑各类实时数据分析的场景,能够进一步在湖上统一数据分析体系,是非常有意义的趋势。


陈绪在圆桌讨论环节

伴随着新的行业发展趋势,企业有望实现新一代数据智能开发、解放业务生产力,组成更美好的“云上创新”全景图。