腾讯首次披露自身大数据核心技术体系,《腾讯大数据构建之道》正式发布

8月31日,在刚刚出版的《腾讯大数据构建之道》新书中,腾讯首次对外披露了自身大数据核心技术体系架构和海量业务应用实践。作为国内大数据领域的一部前沿技术著作,该书汇集了腾讯在大数据领域几十位技术专家的思考和实战精髓,通过全面剖析自身在大数据领域的探索以及落地,为国内大数据从业者提供了一份极具价值的参考文献。

腾讯公司副总裁蒋杰表示:“从第一代的离线计算到以隐私计算、数智融合、云原生为代表的第四代大数据技术,腾讯大数据团队不断基于内部海量业务实践,打造领先的技术和产品服务内外部众多客户。未来,腾讯还将通过腾讯云持续开放自身在大数据领域的技术和经验,携手合作伙伴,为各行各业客户创造价值,加速推进数字经济和实体经济的融合发展。”

《“十四五”大数据产业发展规划》提出,当前数据已成为重要的生产要素,大数据产业作为激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎。此次腾讯推出的《腾讯大数据构建之道》,系统性复盘了大数据技术在腾讯内部的应用发展与演进,对促进国内大数据产业的共同进步具有积极意义。

据悉,该书由腾讯数据平台部与机械工业出版社合作出品,内容总体分为两大部分:第一部分,主要讲述了腾讯大数据平台的技术体系;第二部分,主要讲述了腾讯大数据通过腾讯云对外开放的一系列产品。

在第一部分,腾讯大数据团队从自身平台的发展历程和总体架构切入,深入介绍了各项技术原理,阐述了实战过程中的挑战和自研核心技术的设计思想。内容覆盖了大数据接入、计算、存储、分析、调度等大量技术组件的整体架构和应用展示,当中不乏数据实时采集TDBank、下一代大数据分布式存储Ozone、高性能的大数据SQL引擎SuperSQL、自主研发的高性能分布式机器学习平台Angel等多个重量级产品的详细剖析。

以分布式计算为例,书中详细介绍了SuperSQL的关键技术,以及在OLAP 数据分析、跨数据中心查询优化等多个场景中的应用细节。作为腾讯大数据自研的跨数据源、跨数据中心、跨计算引擎的的高性能大数据SQL引擎,SuperSQL致力于优化集群资源的使用,提升使用业务数据的效率,并帮助解决业务数据孤岛问题。目前,SuperSQL 在腾讯内网及外部客户均已部署使用,对接多个跨数据中心集群,每个集群规模达数百台机器。

图:腾讯SuperSQL系统架构

在第二部分,大数据团队主要介绍了腾讯在数据治理、数据应用、机器学习等方面的建设经验,并对腾讯大数据产品及其在内外部场景的实践落地进行了解读。以腾讯自研机器学习平台Angel为例,其功能涵盖传统机器学习、图挖掘、图学习、深度学习和隐私计算等,是国内第一个在全球顶级AI开源基金会——LF AI基金会毕业的顶级项目。自 2017 年开源后,已被华为、小米、OPPO等一百多个公司和组织使用。在本书中,腾讯大数据团队对其系统架构、运行架构以及功能特性进行了逐层剖析,能有效帮助读者建立起相关的深度认知和理解。

而针对行业人群在大数据运营方面的广泛痛点,本书还从大数据平台规划、平台治理、 运维体系构建、运营成本优化、数据资产管理等方面系统性地介绍了腾讯积累的经验。 也是在伴随海量数据业务爆发式增长过程中,以数据驱动运营,实现平台高度自治为目标的不断探索的成果,为有大数据平台构建和运维需求的企业和团队提供了实用的直接参考。

图:腾讯大数据运营分析及应用体系架构

在刚刚召开的首届腾讯云大数据峰会上,腾讯云副总裁刘煜宏透露,目前腾讯云的大数据平台算力规模已经突破千万核,日实时计算量达百万亿级、日运行容器数超亿级,日计算数据量数百PB,服务的企业客户数超2万家,开源社区代码贡献量超800万行,进一步呈现了腾讯在大数据领域的顶级实力。