月下载量超1400万次 2022年超一半代码贡献量来自中国

3月7日消息,知名开源大数据引擎Flink社区对外透露,2022年阿里巴巴、腾讯、字节跳动等中国企业贡献了超过一半的代码,其中阿里巴巴对Flink核心代码贡献最大,中国开发者已经成为Flink全球化社区的中坚力量。

据悉,Flink是全球范围内被广泛使用的开源大数据计算引擎,有超过20万开发者关注、超过100家国内外知名公司参与代码贡献,形成了庞大的用户和开发者生态,同时也是全球范围内大数据实时计算业界事实标准。

作为全球最受欢迎的开源软件之一,Flink的Github Star数和贡献者人数每年以超30%的速度增长,Github Star数超2万个,上千名贡献者(contributors),月下载量峰值突破1400万次,连续两年蝉联 Apache基金会财年报告最活跃项目。

中国开发者引领Flink社区快速发展

Flink最早诞生于德国柏林工业大学大数据研究项目Stratosphere。2014年,Stratosphere项目组核心成员孵化出Flink,将Flink定位为主攻流处理计算(streaming)的大数据引擎;同年,将Flink捐赠给Apache软件基金会。一年后,Flink成为Apache顶级项目。2019年,阿里收购Flink母公司Data Artisans(后更名为Ververica),成为Flink社区最大的推动者;同年,阿里将内部自研的Flink分支Blink开源,将超百万行代码贡献给Flink。

核心技术方面,FLIP(Flink Improvement Proposal)是 Flink 核心设计提案,代表了Flink发展路线图中最核心、最重要的功能和设计落地。阿里巴巴与Ververica共主导了211 个FLIP,贡献了Flink 70%以上的核心改进。其中,最为值得关注的有:2019年,用Blink planner替代Flink SQL 旧引擎,带领 Flink SQL 在性能、功能、稳定性上全面生产可用,成为 Flink 用户构建实时应用的首选 API;从2020年开始,力推“流批一体”架构演进和大规模实践落地;积极推进Flink拥抱AI和云原生。

人才培养方面,阿里与Ververica共累计培养了近70位Flink核心贡献者(含项目管理委员会PMC成员和活跃贡献者committer),占比超70%。社区运营方面,阿里在2018年把Apache Flink 社区官方技术大会Flink Forward引入亚洲,2019-2022年间,连续举办了4届FFA大会(Flink Forward Asia);不定期举办各种类型线下 Meetup,已累计上百场;投入大量精力打造Flink中文社区,大力推广Flink生态,吸引及培养Flink开发人才。

应用落地方面,Apple、Capital One、eBay、Ericsson等全球知名公司使用Flink处理实时数据,基于Flink的实时化技术升级走向成熟。大规模应用也带来了社区贡献的蓬勃发展,以Flink CDC为例,自2021年开始,吸引了Decodable、Cloudera等多家海外知名企业集成。云服务是开源技术最广泛的用户实践平台,云厂商积极拥抱Flink技术,如阿里云就基于Apache Flink推出了实时计算Flink云产品和全球统一的Flink企业版平台Ververica Platform,推动Flink在各行各业落地;目前,已在政务、金融、制造、零售、交通出行、传媒、游戏、科技等行业大规模应用,帮助上千家全球企业更高效地进行实时业务升级。根据不完全统计,使用Flink的非互联网企业占比已超过30%。

2021年Ververica Platform挺进权威咨询机构Forrester数据流分析报告“强劲者表现者”象限。

大幅降低开发门槛 向“流式数仓”演进

目前,Flink已推出1.16版本,在批处理方面,完成了易用性、稳定性、性能全方位的改进,是 Flink 批处理的里程碑式版本,是走向成熟的重要一步;在流处理方面,也完成了很多重大改进,毫秒级Checkpoint大幅提升用户容错体验,常被用户诟病的多个痛点也得以解决。这标志着Flink社区正一步步推动Streaming Warehouse(流式数仓)从概念变为现实,并走向成熟。

阿里巴巴开源委员会副主席、阿里云开源大数据平台负责人、Flink中文社区发起人王峰表示,Flink 击败Storm成为新一代流计算引擎的关键点在于,它是一款有状态的流计算,除了低延迟、高吞吐的流计算能力,它能将流计算和状态存储进行有机融合,从而在框架层支持整个流计算状态的精准数据一致性。

2019 年,阿里将Blink SQL 贡献给Flink 社区,解决了计算层的体验问题,大幅降低了开发门槛,使得Flink 的应用得到爆炸式增长。Flink 社区下一步将继续提升计算、存储一体化体验,通过Flink 的流批一体SQL和流批一体存储,构建一套真正一体化体验的流式数仓。

“阿里巴巴积极拥抱开源,贡献开源、引领开源。”王峰表示,“Flink是阿里代表性开源项目之一,未来会持续对其进行投入。我们会继续朝着流式数仓的方向努力,真正意义上完成流批一体计算与存储的融合,让数仓的数据流动起来,为全球的用户提供更优质的服务与支持。”