拿下AI榜双冠背后,华为云ModelArts的性能秘密

拿下AI榜双料冠军,上线AI市场!华为云ModelArts武装了哪些技术核弹?

  就在上周三,斯坦福大学发布了最新的 DAWNBench 榜单,这是全球人工智能领域最权威的竞赛之一。华为云 ModelArts 一站式AI开发平台,将图像识别总训练时间和推理性能榜单的冠军收入囊中。

此次华为云 ModelArts 将训练时间缩短至4分8秒,比3个月前榜单公布的纪录足足快了一倍。而此前几次 DAWNBench 图像识别训练的最佳纪录也均由华为云 ModelArts 创造。

大洋彼岸的喜讯刚刚公布,仅隔一日,榕城福州又为AI开发者们带来新的好消息。在华为中国生态伙伴大会上,华为云 AI 市场正式发布。这个在华为云 ModelArts 平台基础上构建的开发者生态社区,为高校、企业及个人开发者等群体提供安全开放、公平可靠的 AI 模型、API、数据集以及竞赛案例等内容共享和交易。

那么,势头强劲的华为云 ModelArts 究竟有何超能力?它如何在高手如云的基准测试中,仅用短短3个月便打破自己的纪录?它又分别对训练和推理做了哪些优化,从而实现如此出色的性能?新发布的AI市场又为 AI 开发者们带来了哪些便利?本文将一一揭晓华为云 ModelArts 的技术硬实力究竟强在哪儿。

  捧走训练推理双料冠军,比此前最高训练纪录快1倍

斯坦福 DAWNBench 榜单是用以衡量端到端的深度学习模型训练和推理性能的国际权威基准测试平台,相应的排行榜反映了当前业界深度学习平台技术的领先性。

该榜单最新的图像识别排行榜显示,在训练性能方面,华为云 ModelArts 用128块 V100 GPU,在 ResNet50_on_ImageNet(93%以上精度)上训练模型,训练时间仅为4分08秒,较其2018年12月创下的9分22秒纪录快了1倍,比此前 fast.ai 在AWS平台上的训练速度快4倍。

  在推理性能方面,华为云 ModelArts 识别图片的速度是第二名的1.72倍、亚马逊的4倍、谷歌的9.1倍。

  华为云 ModelArts 是如何做到在国际权威深度学习模型基准平台上表现出色,并在短短3个月的时间打破自己创造的纪录?

这就要归功于 ModelArts 团队从训练和推理两大部分着手,包括高性能分布式模型训练和极速推理技术在内的一系列优化。

  优化训练的三大维度:网络结构、框架和算法

在训练方面,华为云 ModelArts 团队主要从深度神经网络结构、分布式训练框架、深度学习训练算法三个维度展开优化。

 1、深度神经网络结构优化

本次使用的网络结构是基于经典的 ResNet50 结构。由于在训练中使用了 128*128 的低分辨率输入图片来提升训练的速度,对训练精度产生了一定影响,原始模型无法在维持训练 epoch 数的情况下将模型训练到指定的 top5 93% 精度。

为此,ModelArts 团队对 ResNet50 中的卷积结构进行了优化,从而在低分辨率训练模式下也能够稳定达到目标精度。

  2、分布式训练框架优化

深度学习训练过程涉及大规模的参数的网络间传递。TensorFlow 使用中心化的网络参数服务器(Parameter Server)来承担梯度的收集、平均和分发工作,对 server 节点的访问会成为瓶颈,带宽利用率低。为此 ModelArts 团队使用 AllReduce 算法来进行梯度聚合来优化带宽。

  同时对传输的梯度进行融合,对小于阈值大小的梯度多次传输合并为一次,提升带宽利用率;另外在通信底层采用 NVIDIA 的 NvLink、P2P 等技术来提升节点内和节点间通信带宽,降低通信时延。

  3、深度学习训练算法优化

在本次的训练过程中使用的分布式全局 batch size 为32768,这样的超大 batch size 提升了训练的并行度,但也导致了收敛精度降低的问题。为此 ModelArts 团队实现《Large Batch Training of Convolutional Networks》中提出的层次自适应速率缩放(LARS)算法,在全局学习率调度方面,使用了带 warmup 的 linear cosine decay scheduler,训练优化器则采用 momentum 算法。

  在本次提交的训练结果中,ModelArts 仅用了35个 epoch 即将模型训练到了指定精度,并在全程除了最后一个 epoch 外均保持在32K的大 batch size 下,最终用时4分08秒,比之前的成绩再次提升了一倍。

  优化推理的三大维度:网络结构、量化与剪枝

在推理方面,ModelArts 团队从以下三个方面进行了优化:1.网络结构优化2. Int8 量化3. 神经网络卷积通道剪枝。

  1、网络结构优化

在推理中同样采用了 ResNet50 模型,并且是推理效率更优的 ResNet50-v1 版本。在此模型的基础上将降采样提前并使用了信息损失更小的降采样方法,既提升了推理速度,又获得了更高的模型精度。

  2、Int8 量化

低比特量化是提升推理性能的一种主要手段,其中 int8 量化方法的通用性强且对模型精度的损失小。在量化的过程中先加载原始模型,再对原始模型创建对应的 int8 量化模型,然后提取训练中典型样本对量化模型进行校准,最后基于校准结果产生优化后的 int8 模型。

  在此量化中模型的推理精度仅损失了0.15%,而模型的推理速度提升了2倍以上。

  3、神经网络卷积通道剪枝

研究表明网络中很多连接都是接近0或者冗余的,对这些参数进行剔除对精度影响相对较小。模型剪枝方法包含结构剪枝和非结构剪枝。非结构化剪枝设定一个阈值,当权重低于这个阈值时候会被设置为0,不再更新。

这个方法使得模型连接变得稀疏,但是由于这些连接分散在各个权重里,而由于GPU并不支持稀疏矩阵卷积和乘法加速,因此并不能有效提升推理速度。

  结构化剪枝主要使用的方法是卷积通道剪枝,即通过一些方法评估神经网络中的每个卷积核的影响系数,然后将其中影响系数较低的卷积核整体去掉,而使得整个模型变小,推理速度提升。

  正式发布国内首个AI模型市场

值得一提的是,这次在华为中国生态伙伴大会上,华为将“平台+生态”战略演进为“平台+AI+生态”,为合作伙伴提供“行业+AI”的支持。

华为副总裁、云 BU 总裁郑叶来也正式启动了华为云 AI 市场并宣布投入专项激励,在 AI 市场上帮助开发者、合作伙伴加速企业的 AI 应用落地。

  如前所述,华为云 AI 市场主要包括 AI 模型市场、API 市场、WIKI 数据集和竞赛 Hub 和案例 Hub 等模块资源,用户可自由选择感兴趣的资源进行交易。

从高校科研机构、AI应用开发商、解决方案集成商、企业到个人开发者,这些 AI 开发生态链各参与方均被有效连接,AI 市场不仅帮助他们加速 AI 产品开发和落地,而且确保共享及交易环境足够安全、开放。

  我们来重点谈谈华为云 AI 市场中的 AI 模型市场,这也是国内首个提供发布及订阅 AI 模型服务的平台。AI 模型市场的主要功能是发布和订阅 AI 模型,通过市场中间人机制及 ModelArts 平台,保证买卖双方模型和数据安全。

卖方用户在认证自己的账号后进行信用经营,可以将自己的模型上传到市场中,并为模型指定不同的发布权限和计费策略,例如按次、包年、包月。买方用户则可以在 AI 模型市场寻找和订阅感兴趣的模型,用于自己的 AI 推理。

卖方用户还可以为其模型画像属性,这样一来,买方用户可以更快地定位目标。此外,AI 模型市场支持为发布的模型配置推理/再训练代码,买方用户就可以用这些模型做再训练或者部署成推理服务。

此前,智东西曾在一文中详述华为云 ModelArts 平台的四大亮点和操作流程。ModelArts 有开源数据集、自动化调参、MoXing 分布式框架和千级 GPU 集群规模训练加速、云边端一键式部署等 buff 加成,这一平台的上手门槛非常低,从零编程经验的小白,到高阶算法工程师,都能借助这一平台更快更好地完成 AI 模型的训练和推理。

  华为云 ModelArts 平台于今年1月30日正式上线,已经陆续在智慧医疗、智能制造、自动驾驶、智慧城市、智慧安防、水利等 AI 场景大规模应用,帮助各行各业的企业及开发者们实现 AI 开发应用落地,及时响应市场需求。

  结语:云计算AI大战持续升温,应用落地仍是王道

目前,拥抱 AI 的云计算仍是一片蓝海市场。互联网巨头、传统 ICT 企业、传统企业服务供应商和新兴创企等各类玩家涌入这一市场,老玩家稳固地位,新玩家加速成长,云计算市场的竞争正在加剧。

华为云 ModelArts 平台可以说是华为“把复杂要留给自己,把简单留给客户和合作伙伴”理念的直接例证,上至数据集、AI 模型等基础模块,下至一体式操作流程,让企业和开发者们点点鼠标就能完成高质量的 AI 开发。

从华为云 ModelArts 平台,我们可以提炼出云计算服务商构建 AI 服务竞争壁垒的几个关键词——更强大、更全面、更易用、更可靠。随着 AI 技术逐渐落实到各行业中,泡沫逐渐消散,真正能为企业提供最优质服务、帮助其实现商业变现者,才能最终构建起更强大的生态,推动 AI 应用落地走向高潮。