浅谈AI跑分机制，苏黎世ETHZ测试软件解读-DOIT-数据产业媒体与服务平台

智能手机技术正迎来摩尔定律的发展瓶颈，移动处理器的性能增长越来越慢，但用户对计算能力的需求增速却并未减缓，甚至在人工智能、大数据、物联网等兴起后，对计算能力、计算功耗和计算成本反而有了新的要求。目前单纯的CPU或GPU性能已经无法满足新型运算的需求，而随着移动AI时代的到来，AI芯片也成为突破摩尔定律的希望，但AI芯片的性能有多强，目前的评判标准也大不相同。

以往说到对一款芯片的性能评判，最简单粗暴的方式就是借助于跑分软件，例如知名的GeekBench、3DMark、安兔兔、鲁大师等，这些性能测试软件在曾经的CPU+GPU协作时代闻名遐迩，一度成为对性能评估的直观工具。但是面对AI芯片复杂而不断迭代的运算模型和跳出传统框架的算力逻辑，使得传统测试软件对AI芯片的测试方法追赶已显得力不从心。

例如近期联发科推出的全新Helio P90单系统SoC解决方案，这款芯片在AI方面为用户展现了极强的算力，凭借APU 2.0的运算加速，该芯片的综合跑分数据高达25645分，一举超过了高通骁龙855平台的22082分，大胜同级别的其他竞争对手，引起业界震动。而随着跑分数据的公布，一个很少为人知的专用AI跑分软件ETHZ AIBenchmark（也被称之为苏黎世跑分）也浮出了水面。

联发科P90在苏黎世跑分软件中击败竞争对手，实现AI性能领先。（图/网络）

这款针对AI芯片的跑分软件由有着“欧陆第一名校”之称的苏黎世联邦理工学院研发，该校所属的人工智能实验室在全球机器视觉、深度学习和机械工程等方面都有着深厚的积累，培养出了无数人工智能领域的人才。而这款AI跑分软件也是其在针对性测试领域的集大成之作，因为对AI的综合能力有一个准确的判断受到了业内的认可，包括华为P20、iPhone X等同样锁定AI的手机均非常看中这款测试软件的得分表现。

相比于传统的跑分测试软件，苏黎世联邦理工学院研发的这款AIBenchmark在对AI的评测上可以说是与众不同。例如为了确定智能手机是否功能强大，且能否以快速运行最新的深度神经网络来执行基于AI的任务，它就提供了8大项的核心测试环节：

MobileNet-V1神经网络的目标识别/分类

对象识别/初始分类-V3神经网络

人脸识别

图像去模糊

基于CPU、NPU、DSP的VG-19神经网络图像超分辨率

仅在CPU上的SRGAN神经网络的图像超分辨率

语义图像分割

照片增强

AI基准测试中使用到的深度学习模型的特征总结（图/网络）

相比于传统的跑分测试软件来说，这8大测试环节基本上已经可以覆盖到目前大部分的AI实践运算，例如AI物体识别（测试1/2/3）、AI影像分类（测试7）、AI图像增强（测试4/5/6/8）等，而它为了完整发挥平台的AI算力，它不只支持Android神经网络API，也可以支持芯片厂商定制的程序，以充分调动芯片厂商CPU、GPU、ISP等多个硬件进行协同处理。

例如在针对联发科P90的AI算力测试部分，苏黎世的跑分机制就将其分为了三组，第一组（测试1，2，3项目）中，将使用完全由Android神经网络API（NNAPI）支持的CNN模型，测试会对移动设备进行硬件加速，主要测试的部分围绕着视觉感知来进行，包括常见的目标识别、目标分类和人脸识别等抽象级图形部分。但为达到这一环节的测试需要芯片组有每秒10到100G的MACs（每秒乘累加次数）的运算能力，基本上目前大部分的设备都可以完成这一部分的操作。

第二组（测试7）真要针对的是图形语言分割部分。与第一组的图像分类相比，这部分主要是获得像素级图像理解以方便后期的分割动作，这项测试意味着每个像素必须被独立归类，例如行人、家具、道路，天空，植被等，此外还必须进行图形的主题深度估计和运算估计，这部分基本上要求到50到500G MACs的运算能力，考虑一般低性能的设备很难实现快速准确的分割设计，所以这部门对算力其实已经有了很高的要求。

第三组（测试4、5、6、8）则是使用CNN结构（Convolutional Neural Network，卷积神经网络技术，即基于深度学习）的端到端的超分辨率算法SRCNN（Super-Resolution）进行的图形像素化部分，主要测试的部分包括图形去模糊、多元化的图像超分辨率和图形增强，目前传统的手动编码框架对物体识别的精度基本上都没有超过74％，而2012年引入的深度神经网络（DNNS）则将这一准确率提高到84％，不过在微软、Google等企业的推动下，这部分的准确率已经高达96%，不仅远超出人类的辨别能力，而且也大幅改善了AI的实用能力。

不过由于这个部分中ResNet架构和CNN将会发挥重大的作用，由于涉及到图片的重构、模拟、训练和补充，不仅需要消耗极大量的浮点运算和视觉还原（涉及在GPU或特制AI加速器上运行神经网络），还对设备在CPU、GPU、NPU（APU）等提出了相当大的协作处理能力，通常要求每秒高达200-5000 GMACs的运算能力，如果不是定位高端芯片或设备基本很难完成这一项，而联发科P90最终也以其高达1127 GMACs的算力，在这一领域取得第一的优异成绩。

从ETHZ苏黎世AI Benchmark的工作机制来看，目前国产AI跑分软件在AI层面似乎就显得初级了些，这些跑分软件目前大部分都仅使用了Inception V3，ResNet 34，VGG16（测试2、3、5）这三项神经网络的测试指标，而这三项指标虽然也能判别AI识别图像的能力，但还只能停在浮点运算或者是智能识图方面，且基本上都是通过算法和统计和评估AI时，测试框架非常单一，对于AI芯片今后能作为广泛用途的项目测试或是较新的算法则根本没有涉足，所以目前市面上常见的传统AI跑分测试软件其实很难客观的对AI芯片做出正确评价。

虽然ETHZ苏黎世跑分软件并不是第一个测试AI性能的应用，但就目前来看它确实是最全面的的AI评分软件。它不仅能够把AI性能测试细分为9个部分进行检测，大家熟知的智能识图仅仅只是其中一项，其他的还包括人脸，图像降噪，画面分割等项目均包含在内，不仅实现了对主流AI应用的测试，还进一步深入到对AI未来技术框架的能力探索评估中。当然更具意义的是，此前人工智能开发主要由PC和服务器上使用，很少考虑智能手机操作环境中的需求，而ETHZ苏黎世跑分显然有助于智能手机厂商对AI的不断优化。

所以从ETHZ苏黎世跑分软件中我们也发现，联发科Helio P90确实有其亮点所在，得益于独特的AI专核和APU 2.0加速引擎，这款芯片实现了前所未有的AI算力突破，高达25645分的成绩不仅位居第一，而且也实现了对其竞争对手高通的反击。另外根据数据显示，联发科P90的AI 算力高达 1127GMACs（每秒可操作11270亿次定点乘累加次数），而例如骁龙845的成绩大约是每秒600 GMAC、麒麟970的数值大概是450 GMAC左右，所以联发科P90在AI领域实际上已经走到了行业前列。

从目前联发科专注AI的策略来看，这个思路是对的。更关键的是，联发科正在以AI体验作为重心点，基于Helio P90的AI算力推出了3D人体姿态识别与追踪、AI焦点直播、AI人像留色、AI降噪夜拍等一系列让用户能感知到的应用特性，以用户体验取代了传统的跑分和参数，不仅颠覆了智能手机市场的游戏规则，也让联发科在新高端的品牌转型之路上站稳了脚跟。

本文参考内容：

arXiv网站上发表的题为《PIRM智能手机感知图像增强挑战》的论文，2018年10月2日出版。

thome网站名为《物体侦测物(Object Detection) + 影像标题(Image Captioning)》的著作，署名作者I code so I am，2017年12月22日发表。

本文亦参考了Facebook AI 研究院（FAIR）开源的目标检测平台Detectron的工作流程和方式。

浅谈AI跑分机制，苏黎世ETHZ测试软件解读

songjy

相关推荐

近期文章

热门标签