基于英特尔® 架构的大数据•智算一体机解决方案

“为了帮助用户构建卓越的智算基础设施,浪潮与英特尔在软硬件层面开展了广泛的合作,本次推出的新一代大数据•智算一体机融合了双方的技术优势,不仅加速大数据分析与AI模型训练与推理计算的深度融合,还支持用户实现IT基础资源的统一管理,从而进一步提升资源利用率和应用开发效率。我们将借助该解决方案,帮助更多客户构建高效、敏捷的大数据分析与人工智能一体化平台,推动数字化转型进程。”

浪潮信息方案与测试部总经理 魏健

摘要·

在数据爆发式增长的今天,能否从海量数据中挖掘价值,并构建智慧型应用,已经成为影响组织竞争力的重要因素。在此背景下,越来越多的组织开始构建大数据与人工智能 (AI) 平台,在强化面向海量数据的处理能力的同时,赋能深度学习等创新技术的应用,以获得更加高效、精确的数据洞察,推动数字化转型战略的成功实施。但与此同时,大数据与 AI 平台的构建也带来了复杂的算力优化、软硬件融合、资源管理与运维等挑战,组织需要寻找创新的大数据与 AI 基础设施构建方案,以发挥数字化技术创新的巨大潜力。

为帮助组织更有效地利用大数据与 AI 进行数字化转型,浪潮集团(以下简称“浪潮”)推出了基于英特尔® 架构的大数据•智算一体机解决方案。该一体机以浪潮SRDC一体化平台为基础,采用了第三代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久内存(PMem)、英特尔® 以太网适配器等高性能硬件,并集成部署浪潮大数据平台Insight、英特尔® BigDL [1](Analytics Zoo)、智能存储管理 (Smart Storage Management, SSM)、优化分析包 (Optimized Analytics Package, OAP)等软件系统,旨在通过软硬件一体化集成,形成软硬件紧密耦合的资源池,构建计算、存储、网络和AI应用紧密融合的高性能大数据平台。

浪潮大数据•智算一体机解决方案帮助用户重构了大数据、AI 系统和传统 IT 系统集成部署架构,提供了一套高性能、高可靠、高扩展、易部署的大数据AI融合一体化计算平台,降低了IT基础设施的总体拥有成本 (TCO)。

背景:大数据与 AI 应用带来基础设施层面的巨大挑战

当前,利用大数据技术与 AI 技术激活数据要素潜能成为产业数字化转型的方向。根据IDC统计,全球到 2025 年数据将达到 175 ZB[2],数据年复合增长率26%[3]。如何提升大数据与 AI系统的性能与效率,帮助客户高效处理巨量增长数据,满足客户在IT基础设施方面对高性能、高可靠、高扩展、易管理、兼容性等多方面的需求,赋能信息和应用系统智慧,成为 IT 基础设施厂商面临的重要挑战。

在此背景下,组织开始普遍搭建大数据与 AI 平台,提供文件存储、数据管理、硬件资源调度,以及高性能计算能力,满足深度学习模型训练、深度学习推理、数据分析等工作负载对计算、存储、网络等基础资源的应用需求。特别是在新基建建设行动计划落地、东数西算等国家重要战略工程实施的推动下,构建大数据与 AI 平台已经成为众多组织实施数字化转型战略的重要规划。

——————

[1] BigDL 2.0 合并了 BigDL 和Analytics Zoo

[2] IDC. “The Digitization of the World From Edge to Core.” Sponsored by Seagate. November 2018. seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf.

[3] IBM. “3D NAND Technology – Implications to Enterprise Storage Applications.” 2015 Flash Memory Summit. 2014.

flashmemorysummit.com/English/Collaterals/Proceedings/2015/20150811_FM12_Yoon.pdf.

但是,在传统 IT 基础设施建设中,大数据与 AI 平台往往分开部署在不同的服务器集群中,AI 平台提供 AI模型训练资源,大数据平台提供数据存储、数据管理、数据分析资源,这种建设方式在架构上较为清晰,有利于分阶段的部署推进。但随着组织数字化转型战略的深入,其面临着如下挑战:

如何实现基础资源的统一管理与数据的充分共享:大数据与 AI 平台分散部署的模式通常会导致两个平台的基础资源无法实现统一管理,导致资源无法得到充分利用。此外,由于大数据与 AI 平台中的数据分别存储在不同系统中,无法便捷地实现数据共享,影响了数据价值的充分发挥。

如何实现便捷化产品实施:面对大数据平台组件、AI 平台、服务器、网络配置的多样性,如何快速敏捷地交付大数据、人工智能,加快业务应用快速上线,对提升客户业务效率、提升客户竞争优势具有重要意义。但是传统 IT 基础设施的实施涉及硬件准备、网络配置、资源规划、软件部署验证等问题,需要很长的交付时间。

如何控制基础设施的 TCO:大数据和人工智能系统的建设涉及软硬件的系统设计、集成、安装、部署、调试与运维,以及大数据、AI 软件系统的调试优化等工作,会带来巨大的资金和人力成本,为 IT 基础设施和业务应用运行带来未知风险。

如何实现数据自动化存储管理:由于数据量快速增长,大数据平台面临着存储数据量巨大、数据增量较高、数据类型混杂等问题,这需要大数据平台提供强大的数据管理功能,能够对数据生命周期冷温热实现自动分层管理,根据数据冷温热分类,将数据迁移到相应类型的存储设备,例如冷数据迁移到物理带库,温数据迁移到高性能机械硬盘,热数据存储在固态盘或持久内存中。

如何化解上述挑战,构建AI与大数据的深度融合平台,实现AI与大数据的资源和数据共享,成为当前面临的重大挑战。

解决方案:基于英特尔® 架构的浪潮大数据智算一体机解决方案

浪潮新一代大数据•智算一体机方案基于浪潮大数据平台Insight,融合大数据与人工智能组件,与 SRDC 一体化平台实现工厂化安装部署,旨在构建人工智能深度学习端到端管理体系,为用户建立大数据分析与人工智能模型训练推理的深度融合平台,实现智算一体化部署交付,降低用户大数据和人工智能平台的 TCO。

图1. 浪潮新一代大数据•智算一体机方案架构

该一体机基于硬件特性对软件进行了深度优化,可大幅提升大数据业务场景处理性能,并通过预集成、预测试、预优化等措施,显著降低了系统交付/运维复杂度,提升了系统稳定性,实现了极致性能和一站式交付部署能力。此外,它还能够针对不同的场景进行定制配置,为客户提供性价比最优的解决方案。

浪潮新一代大数据•智算一体机推荐使用第三代英特尔® 至强® 可扩展处理器、第二代英特尔® 傲腾™ 持久内存、英特尔® 傲腾™ 固态盘、英特尔® 以太网等产品,能够提供高性能、高扩展的基础资源支持。

第三代英特尔® 至强® 可扩展处理器:已针对云、企业、高性能计算、网络、安全和物联网工作负载进行优化,提供 8-40 个强大内核以及广泛的频率、功能和功率选择;同时集成了工作负载加速功能,其中包括英特尔® 深度学习加速技术、英特尔® 高级矢量扩展 512 技术和英特尔® SpeedSelect 技术。第三代英特尔® 至强® 可扩展处理器基于平衡、高效的架构,该架构可提升内核性能、内存和 I/O 带宽,为处理从数据中心到边缘的各种工作负载提速。

第二代英特尔® 傲腾™ 持久内存:英特尔® 傲腾™ 持久内存 200 系列是英特尔新一代既支持安全功能,又可靠、持久的内存模组。它提供大容量和原生持久性,有助于从更大的数据集中攫取更多价值,同时,由于能够在更靠近 CPU 的地方快速访问更多数据,因此也提高了敏捷性。与第一代产品相比,第二代英特尔傲腾持久内存平均增加了 32% 的内存带宽[4]

英特尔® 以太网适配器 E810-DA2:具备 100/25GbE 性能,支持单个或双端口连接,在 PCIe 4.0 x16插槽中提供了出色的性能,并支持应用程序设备队列 (ADQ)、动态设备个性化 (DDP)、RDMA iWARP和RoCEv2等各种高级功能,能够有效满足各种工作负载对于带宽和时延的严苛要求。


[4] 基于英特尔 2020 年 4 月 27 日(基准)和 2021 年 3 月 23 日(新)的测试。配合工作负载/配置信息请见www.Intel.com/PerformanceIndex。结果可能不同。

基准配置:1 个节点,Neon City 上 1 个英特尔至强铂金 8280L 处理器(28 核,2.7 GHz),采用单个英特尔傲腾 PMem 模组配置(6 个 32 GB DRAM;1 个 {128 GB, 256 GB, 512 GB} 英特尔傲腾 PMem 模组),ucode 版本:04002F00,运行 Fedora 29 内核 5.1.18-200.fc29.x86_64 和英特尔® Memory Latency Checker(英特尔 MLC)3.8 版,采用 App Direct 模式。

浪潮新一代大数据•智算一体机搭载了浪潮云海Insight大数据平台,该平台具备数据智能化分析挖掘、多数据源协同计算、大规模集群一键式部署、异构平台混合部署与资源精细化管理等领先技术特性。平台提供“一键式”安装部署功能,让大数据•智算一体机达到“开箱即用”的程度,帮助用户加快应用系统上线时间,同时降低系统管理员日常运维管理复杂度。

图2. 浪潮云海 Insight大数据平台技术架构

浪潮与英特尔面向大数据与 AI 负载实现广泛优化

在浪潮云海Insight大数据平台,以及英特尔新一代软硬件产品与技术的基础上,浪潮与英特尔围绕智能存储管理、端到端智算统一管道的构建、大规模数据处理性能优化等方面,进行了深度的合作。

通过英特尔® SSM 释放智能存储管理潜力

浪潮新一代大数据•智算一体机搭载了英特尔® 智能存储管理组件(Smart Storage Management,SSM),为用户提供存储优化和数据管理方案。SSM是英特尔在 Apache Hadoop生态系统中发起和维护的存储管理的系统级方案。SSM处于上层应用(数据引擎,流式计算等)与存储系统(HDFS,AWS S3等)的中间层,上层应用通过SSM与存储系统实现数据接入。它提供了对异构存储硬件的支持,例如HDFS可以通过SSM充分利用英特尔® 傲腾™ 固态盘和英特尔® 傲腾™ 持久内存,实现动态优化数据存储。此外,SSM还提供了对远端存储与HDFS本地备份统一管理。

图3. SSM在大数据生态中的定位

在数据管理方面,SSM 与浪潮云海 Insight 大数据平台的无缝结合对平台存储而言如虎添翼,面向分布式存储的智能管理不仅能够免去外界触发完成数据管理,进一步细化管理粒度,而且实现了一次规则定制即可完成全数据生命周期管理的高效解决方案。同时,浪潮云海 Insight 大数据平台也为 SSM 提供了更大的舞台,支持根据客户需求优化 SSM 服务管理运维能力,提升 SSM 的易用性与安全性,从而更好地释放智能存储管理的潜力。

集成 BigDL 构建端到端智算统一管道

浪潮新一代大数据•智算一体机为用户提供了端到端智算统一管道,能够在优化的基础设施层基础之上,融合计算引擎、存储服务、数据服务、数据工作台、管理平台,构建端到端的大数据分析和深度学习应用流水线,进而打造成统一的大数据分析和人工智能平台,通过使用 Apache Spark中的各种框架模型简化和加速 AI 解决方案的开发。

为了简化端到端的大数据分析和人工智能融合开发和部署,浪潮新一代大数据•智算一体机在 Insight 中集成了智慧计算组件BigDL (Analytics Zoo),旨在将大数据预处理、模型训练、模型推理与现有的大数据处理工作流整合在一起,构建端到端的大数据分析和深度学习应用流水线,进而打造成统一的大数据分析和人工智慧平台,通过使用Apache Spark中的各种框架模型简化和加速人工智能应用系统的开发。

图4. 端到端的大数据分析和人工智能融合开发架构

集成英特尔® OAP 实现大规模数据处理性能优化

为了改善 Spark 高速缓存、shuffle、执行和机器学习性能,浪潮新一代大数据•智算一体机在 Insight 中集成了英特尔® 优化分析包(Optimized Analytics Package,OAP)。OAP 是英特尔和社区开发的开源项目,包括以下组件:OAP 数据源高速缓存、native SQL 引擎、Arrow 数据源、OAP MLlib、RDD 高速缓存、RPMem Shuffle扩展和远程 Shuffle,旨在借助领先的英特尔® 处理器、内存和存储以及网络技术,通过数据源缓存、SQL 索引、Native SQL 引擎、MLlib 优化等创新软件功能提高 Spark 性能,以解决 Spark 核心和相关组件面临的计算与 I/O挑战。

图5. 英特尔® 优化分析包架构

浪潮云海 Insight大数据平台集成了基于英特尔® 傲腾™ 持久内存深度优化的 Spark。与 DRAM 内存相比,英特尔® 傲腾™ 持久内存在每容量成本方面有突出的优势,这帮助浪潮显著提升了 Insight大数据平台的经济性。同时,经过优化后的 Spark 对比开源版本有效提升了性能。测试数据显示,在大数据场景的 Spark 离线计算中,IO密集型、内存密集型任务性能相较传统方案提升 2-5 倍[5]。

同时,Insight大数据平台对MPP、HBase、Redis、ElasticSearch、Nifi、OpenTSDB等组件进行了深度优化,使其性能在英特尔® 傲腾™ 持久内存、英特尔® 固态盘上得到大幅提升,同时可帮助用户提升业务系统性能和用户体验。例如,在 HBase大数据量高并发查询场景下,英特尔® 傲腾™ 持久内存全缓存相比内存部分缓存,能够将查询吞吐量提升 100% 以上[6]。

浪潮新一代大数据•智算一体机能够在浪潮一体化机柜平台 (Smart Rack Data Center, SRDC) 得到最优配置与交付。SRDC 面向智慧数据中心而设计,为用户提供了集成服务器、交换机、PDU等IT设备,以及配电单元、UPS、电池包、动环监控和基础资源监控(ISPIM)等配套硬件设备和软件的一体化机柜平台。SRDC以整机柜为最小产品颗粒度,在工厂集成业务所需机柜内设备,根据用户需求集成预装应用软件,可实现IT设备快速部署及业务快速上线。

收益:帮助用户构建大数据与 AI 统一平台

通过部署浪潮新一代大数据•智算一体机,用户能够构建大数据与 AI 统一平台,有效解决大数据与 AI 平台的资源与数据无法统一管理的问题,提升计算、存储、网络等资源利用率,同时节约在软硬件配置、性能优化等方面的时间与成本。其能够为用户提供的收益包括:

————————

[5] 数据由浪潮于 2021 年 6 月 25 日测试得出。测试配置:Manager、Master 和 Worker 大数据集群—2* 英特尔® 至强® 金牌 6240 处理器 @ 2.60GHz,18 核;12*32G DDR4 2666 MHz RDIMM;12*8T 机械硬盘;8*256 GB 英特尔® 傲腾™ 持久内存;2*双口万兆网卡、2*双口千兆网卡。

[6] 数据由浪潮于 2021 年 2 月 22 日测试得出。测试配置:Manager、Master 和 Worker 大数据集群—2* 英特尔® 至强® 金牌 6240 处理器 @ 2.60GHz,18 核;6*32G DDR4 2666 MHz RDIMM;12*8T 机械硬盘;4*512 GB 英特尔® 傲腾™ 持久内存;2*双口万兆网卡、2*双口千兆网卡。

卓越性能加速大数据与AI负载运行

浪潮新一代大数据•智算一体机实现了软硬件深度整合,可以充分发挥第三代英特尔® 至强® 可扩展处理器和第二代英特尔® 傲腾™ 持久内存等产品的优势。它同时支持端到端数智结合和多 AI 框架,集成BigDL (Analytics Zoo) 及TensorFlow 和 Spark 等深度学习与大数据集群的融合框架,拥有百万级IOPS与微秒级的延迟,可全面提高端到端计算效率,提升平台在大数据与 AI 负载中的性能表现,大幅缩短模型训练、数据分析的延迟。

提升 IT 基础实施交付效率

浪潮新一代大数据•智算一体机通过软硬件深度适配调优、预安装、预测试、预集成等措施,实现开箱即用,支持快速交付部署,简化交付流程。SRDC一体化机柜平台支持根据用户需求进行定制,实现服务器、PDU、网络等设备工厂化集成,提高了IT基础设施的交付效率。

实现软硬件全生命周期管理

浪潮新一代大数据•智算一体机构建了软硬一体化监控平台,可以实现一站式、可视化运维管理,纳管集群软硬件资源,实现对硬件、软件全生命周期管理,从而有助于进一步提升资源利用率,简化运维。

保证数据的安全和可靠

浪潮新一代大数据•智算一体机具有出色的可靠性与可用性。全冗余硬件架构全面消除单点故障,同时成熟可靠的多副本技术实现了数据级别的冗余,保证数据的安全与可靠。

行业实践

目前,浪潮新一代大数据•智算一体机已经在行业中实现了广泛应用,帮助行业用户构建了卓越的智算基础设施。以交通行业为例,基于浪潮新一代大数据•智算一体机的智能存储与AI融合方案能够将智能存储、智能缓存、智能计算结合,为交通行业用户提供了的端到端数智一体解决方案。基于Insight统一数据工作平台DataWorkBench,实现了智慧交通数据接入、数据开发、数据查询、作业调度、数据可视化。

通过该方案,交通行业用户可将大数据与深度学习高效结合,在大数据集群上无缝运行 AI+大数据等业务应用,构建端到端平台能力,实现数智一体智慧交通融合分析,为道路车辆行驶分析、区域流量分析、违章行为分析、区域测速分析等综合场景的落地提供了完整的行业示范。

图6. 浪潮新一代大数据•智算一体机在交通行业的应用

展望:AI 与大数据深度融合助力数字化转型

基于英特尔® 架构的浪潮大数据•智算一体机解决方案融合了浪潮在智算基础设施方面自主创新与浪潮云海 Insight 大数据平台,并充分利用了第三代英特尔® 至强® 可扩展处理器和第二代英特尔® 傲腾™ 持久内存等硬件,以及英特尔® SSM、英特尔® BigDL、英特尔® OAP 等软件技术,为客户提供了基于英特尔® 架构的全栈式大数据与 AI 解决方案,不仅能够加快大数据分析与 AI 的部署、降低开发门槛,还有利于提升模型规模与模型训练速度,降低 TCO。

未来,双方计划进一步在面向未来智算基础设施的异构参考架构方面进行广泛合作,通过英特尔® 至强® 可扩展处理器、NNP芯片、FPGA、网络、内存和存储等基础硬件,以及各种数据库、人工智能平台与开发工具,构建优化型的端到端全栈大数据与 AI 解决方案,帮助用户更快速处理大规模的数据,加速大数据、AI 的开发与应用。

关于浪潮

浪潮集团是中国领先的云计算、大数据服务商,拥有浪潮信息、浪潮软件、浪潮国际三家上市公司。主要业务涉及云计算、大数据、工业互联网、新一代通信及若干应用场景。已为全球一百二十多个国家和地区提供IT产品和服务。浪潮是中国最早的IT品牌之一,一直秉承创新的理念,数次在中国信息产业发展的重要历史阶段,通过提供领先技术,提升竞争实力,成为新一代信息技术领军企业,全面服务经济社会的数字化转型和高质量发展。

关于英特尔

英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。如需了解英特尔创新的更多信息,请访问英特尔中国新闻中心newsroom.intel.cn以及官方网站intel.cn。

实际性能受使用情况、配置和其他因素的差异影响。更多信息请见 www.Intel.com/PerformanceIndex。

性能测试结果基于配置信息中显示的日期进行测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的。

具体成本和结果可能不同。

英特尔技术可能需要启用硬件、软件或激活服务。

英特尔未做出任何明示和默示的保证,包括但不限于,关于适销性、适合特定目的及不侵权的默示保证,以及在履约过程、交易过程或贸易惯例中引起的任何保证。

英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。

©英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。其他的名称和品牌可能是其他所有者的资产。