英特尔携手阿里云创新容器、AI 共推智能化变革

前言:某一项技术的发展需要不断创新就够了,某一个产业想要持续发展一定离不开生态和标准,任何单打独斗都是不现实的,这话听起来有点绝对,但对于想要构建云生态的厂商来说,是一定要走的路。

阿里云是国内领先的云计算厂商,如今正在努力构建技术生态,在不久前召开的云栖大会上,英特尔市场营销集团副总裁兼中国区总经理王锐表示,在中国发展产业生态最重要的一点是要真正地扎根于本土的市场特点和用户的需求。看得出来,英特尔非常重视与阿里云的合作。

在谈到双方合作时,王锐将英特尔和阿里巴巴的合作总结为早、大、深、广四个方面,“早”指的是技术引入的时间早,“大”是指使用的规模大,“深”就是合作的程度深,而“广”就是指合作范围非常的广。

云栖大会上,英特尔和阿里云回顾了双方技术创新合作两大亮点:容器和AI方面。

其中,云原生底层是容器技术生态,容器是虚拟化技术之后IT业界的又一巨大创新,基于容器的云原生将会为IT架构发展带来巨大影响。而AI作为智能时代的技术引领,也将在很大程度上影响未来社会发展,因此双方在AI方面也有着深入的合作。

沙箱容器技术

2020年,阿里云发布了多款基于沙箱容器技术的云原生产品,阿里云容器产品负责人易立表示,沙箱容器技术主要是为了帮助金融、政府等行业用户应对容器部署带来的安全问题,沙箱容器还可以为Serverless轻量、高效、敏捷的算力来充分释放其弹性优势。

阿里云资深技术专家刘奖表示,阿里云沙箱容器是基于沙箱技术运行的容器服务,沙箱技术要求在保证资源供给的前提下,保障安全、稳定、效率以及弹性。为此,阿里云基于硬件虚拟化自研了轻量级虚拟化技术,以此来提供沙箱隔离能力,并把沙箱隔离技术应用到容器服务,满足容器服务的快速弹性、高效运行以及能快速拉起业务的需求。技术路线上,阿里云不仅和英特尔的Cloud-Hypervisor一起构建沙箱技术,也加入Kata社区,共同打造构建容器服务所需要的核心技术能力。

蚂蚁集团资深技术专家/Kata Containers架构委员会成员王旭表示,Kata Containers是蚂蚁金服和英特尔一起来发布的开源项目,是蚂蚁金服的runV和英特尔的Clear Containers合并而成的,Kata Containers用虚拟化来弥补容器技术在隔离性上的不足,将容器和虚拟化进行结合,在最近一年的开发重点是和英特尔的Cloud-Hypervisor一起去降低整个沙箱的消耗。

多位技术专家都看好开源以及围绕开源生态带来的积极意义,比如树立业内都认可的标准,能打造互通的云,能让更多人都用得上开源技术。

加密计算容器技术

易立表示,为避免在对数据进行分析、处理、交换时,带来的安全、隐私、合规问题,需要对数据进行加密。业内通常是通过机密计算技术,保证数据在处理过程中始终维持一个加密或隔离的状态,来保证数据的安全和隐私。

英特尔的SGX是一个非常成熟的机密计算技术,从2018年开始,阿里云与英特尔合作推出了可信的执行环境,但对于许多技术人员来说,直接使用英特尔的SGX SDK来开发应用仍然具备一定的技术门槛,需要对整个应用架构进行重构。为了进一步普及这项技术,阿里云和蚂蚁金服一起开源了加密计算容器,提升加密计算应用的开发效率,降低使用门槛。

王旭指出,Occlum的LibOS是蚂蚁金服开源的一个项目,用户能够直接对原有的应用程序进行重新编译,因此可以直接用上SGX,从而大幅降低 SGX 应用的开发门槛,既可以保护基础设施不受恶意攻击,也能保护用户的数据和算法,让用户可以更加信任基础设施。

随着容器部署的密度越来越高,如何保证容器性能就显得越来越重要了,为了保障SLA免受外界干扰,英特尔还有资源调配技术 (英特尔RDT),以提升应用程序、虚拟机 (VM) 和容器使用共享资源方式的可见性和可控性,能够实时追踪服务器节点上的容器和虚机的资源使用状况,并进行精准控制,从而保证其能有稳定的性能输出,并大幅提高资源利用率。

AI联合创新

近年来,英特尔至强不断提升在AI方面的能力,在第一代至强可扩展处理器Sky Lake中,英特尔引入了AVX-512指令,大幅度提升了FP32模型的执行效率。在第二代平台Cascade Lake之中,英特尔引入了支持Int8数据类型的加速指令——英特尔DL Boost的技术。在AI推理方面,相对于FP32,模型推理性能提升可达到4倍之多。

在最新的第三代至强可扩展处理器Cooper Lake之中,英特尔引入了针对BF16数据格式的优化指令。所有这些新的硬件加速指令,都可以让开发者在开发新的复杂模型时,有更多的精度选择,同时,也能够让至强处理器在训练场景应用中发挥更大作用。

为了充分发挥硬件加速指令的作用,英特尔还做了许多软件栈的优化,最主要的就是oneAPI。oneAPI包含了一系列高性能加速库和完整的工具链,其中和AI性能加速相关的有两个,一个是AI分析工具集,另一个是深度学习框架开发工具集,包括常见的OpenVINO、OneDNN,还有Pytorch、Tensorflow、MXNet等等。

在实际应用过程中,往往还需要一些定制功能,在阿里云机器学习平台PAI(Platform of Artificial Intelligence)的构建当中就涉及一些与英特尔的定制化合作。

PAI有一个支持拖拉拽方式构建工作流的PAI Studio;有可提供沉浸式开发体验的工具DSW,让机器学习开发者像用Jupyter一样在云上运行自己的算法,训练并部署自己的模型;还有一个命名为PAI-DLC的基于K8S的分布式训练平台,以及一系列加速训练工具和模型构建工具。

与此同时,阿里云第七代ECS也使用了英特尔第三代至强可扩展处理器,基于双方的深度合作,其充分发挥了该处理器AI加速指令的作用。PAI作为首批全面支持BF16的PaaS平台,充分发挥了硬件的性能,使得训练和推理都有了明显的性能加速,而且,用户无需改变代码及模型就能直接享受到这些加速能力。

与想象中不同的是,PAI不仅在推理方面的性能有明显提高,在训练方面效果也很明显,阿里云智能研究员林伟表示,PAI的用户群里有很多人在CPU平台上进行模型训练,通过DL Boost的BF16的能力,训练性能得到了两倍提升,通过整合英特尔OneDNN1的库和阿里云的深度学习的引擎,性能又提高1.3倍。

傲腾持久内存应用

阿里云资深技术专家刘奖还表示,如今大数据、AI等许多应用对于内存的需求非常大,为解决传统内存密度有限的问题,阿里云开始应用英特尔傲腾持久内存。基于有深度的技术使用技巧并结合业务模型,阿里云应用傲腾持久内存后不仅获得了较大的内存容量,计算速度和效率也并未受到影响。

阿里云智能技术战略总监陈绪介绍说,阿里云基于英特尔傲腾持久内存推出了阿里云ECS持久内存版,在参数服务器这种内存密集型场景中使用傲腾持久内存后,可以在性能基本不受损失的情况下,大幅降低成本。

同样基于傲腾持久内存,阿里云还推出了企业版的Redis数据库方案(Tair),性能可达传统内存方案的90%,成本降低30%,而且使每一个操作都是持久化,真正做到了掉电不丢失数据。

结语

对于阿里云来说,超大规模的用户数量、多样化且复杂的应用负载以及对领先性能的极致需求,使其在选择基础设施时不仅需要考虑高性价比和高性能,全面的软硬件支持和完善的生态体系也必不可少。而作为领先的基础设施供应端,英特尔通过全面的产品领导力、解决方案创新力和生态构建力,与阿里云以技术合作为基础,推动全面创新,加速将技术转化为产品的速度,为用户创造更多价值。这种强强合作不仅为双方带来诸多积极影响,也将深度造福用户和产业。