手机AI芯片迎来破局者 开启五强争霸

日前,苏黎世联邦理工学院AI Benchmark公布了市场主流AI芯片的测试榜单,紫光展锐宛如一批黑马杀了出来——展锐虎贲T710排行第一。此前展锐并不在手机AI的头部部队里,此次强势霸榜,是否也宣告着展锐也以高姿态加入了AI战局?而展锐的加入,也打破了目前全球手机AI芯片4强争霸的现状,开启了5强竞争的新格局。

AI芯片几个方案

手机芯片厂商之所以聚焦人工智能,是因为一些任务需要AI芯片支持才能高效率完成。比如人脸识别、图片识别、语音识别等等。目前,就智能手机上跑的AI芯片,有DSP、GPU、NPU几个方案。

DSP是用传统SIMD/DSP架构适配神经网络。高通骁龙处理器就是借用DSP和GPU来跑人工智能。

NPU是最近几年非常火的芯片,用专门的ASIC来跑AI,优点是具有非常好的性能功耗比,但缺点是通用性不行。

总的来说,从GPU、DSP到NPU,就是从通用到专用的过程,专用性越强,性能功耗比越高。正是因此,以寒武纪、谷歌、华为、苹果等为代表的一大批厂商选择了专用芯片路线,牺牲了通用性,换取高性能。

下面,铁流盘点下全球手机AI芯片的五大玩家:

1. 紫光展锐

早在2018年,展锐就发布了可支持AI应用的SC9863A, 但并不是独立的NPU. 时隔一年,展锐即推出了第二代AI产品,

展锐虎贲T710 ,此次霸榜的黑马,在本次公布的AI Benchmark测试榜单中,虎贲T710总分达到了28097,超过了高通新发布的骁龙855 plus和华为麒麟810。而且展锐虎贲T710在9项测试中全面领先,包括图像分类、人脸识别、图像超分辨率以及图像增强、分割、去模糊,足见在AI方面做了深入探索和优化。

根据公开消息,展锐虎贲T710集成了业界最新架构的NPU,为AI计算提供了强大的算力支撑,同时还支持运行FP16、INT8、INT4等多种数据位宽的AI算法,可以为AI应用开发提供强大的平台支持。换言之,展锐虎贲T710选择了类似于华为麒麟芯片集成寒武纪的方案,在芯片里集成了NPU模块,正是依靠NPU强悍的性能,使展锐芯片的AI性能屹立鳌头。

2. 高通

高通的AI芯片以高通骁龙855 PLUS为代表,在排行榜上位居第二,仅次于展锐虎贲T710。相对于展锐和华为在手机芯片上集成了专门的NPU来跑AI,高通一直沿用CPU、GPU、DSP等传统单元来跑AI。就高通上一代旗舰骁龙845来说,高通并没有专用于处理AI任务的NPU,而是用DSP(Hexagon 685)来处理AI应用,有时候CPU和GPU也会辅助DSP跑AI。

在最新的骁龙855上,也没有像其他方案那样集成一个专为AI设计的NPU,而是继续依赖CPU、GPU、DSP等传统单元,并增加一个AI引擎。

至于为何不做专门的NPU,高通的观点是不能把所有AI任务都交给一个核心去处理,而是要利用所有可用的资源,来达到效率的最大化,所以整套方案叫做AI引擎。高通的第四代AI引擎软件套件可以对实现对终端侧AI语音、拍摄、游戏和XR体验的支持。

高通这种做法主要是为了节约成本,因为额外加入一个NPU模块,会增加芯片的成本。由于高通处于市场垄断地位,没有变革的急迫性,为了赚取利润最大化,因而在人工智能硬件方面则能省就省。另外,其实现在不少AI应用,原来也是用DSP跑的,高通用DSP、CPU、GPU来跑AI,就现在的情况来看也够用。

3.华为

华为麒麟810在排行榜上位列第三。华为和展锐一样,走的是集成NPU的路线,华为麒麟970集成了寒武纪的IP。之后,华为麒麟980则集成了寒武纪双核NPU,使用了更高精度的深度网络,支持人脸识别、物体识别、物体检测等AI场景。

华为最新的麒麟810则抛开了寒武纪,采用了华为自己的达芬奇架构NPU。根据在AI-Benchmark查询到的以处理器AI跑分进行的最新排名,麒麟810以23944分排名第一,骁龙855和Helio P90分列第二和第三。麒麟810这个成绩在发布时非常不错的,但长江后浪推前浪,麒麟810在AI性能上已经被后起之秀展锐T710超越。

4.联发科

虽然联发科给自己的人工智能模块起名为APU,但实际上,联发科的技术路和华为、苹果、展锐没啥区别,本质上都是专用ASIC,也就是牺牲通用性换取高性能。在此前的P60中,联发科就在SoC里集成了双核APU。最新的P90则继承了APU 2.0,在ETH Zurich苏黎世联邦理工学院开发的AI跑分测试中,联发科P90的成绩优于高通骁龙855。然而,这个成绩相对于骁龙855plus、麒麟810和展锐虎贲T710的测试成绩就逊色不少了。

5.三星

Exynos9820是三星首款搭载了NPU的SoC,在AI算力上相对于Exynos9820上一代芯片提升了7倍。很显然,三星也选择了和华为、苹果、展锐、联发科相同的技术路线。三星最新的Exynos9825虽然在制造工艺上将采用7nm工艺,但从跑分榜单上看,在AI算力上,相对于展锐T710和高通855plus还是有一定差距。

结语

当下人工智能就两类方案,一是以CPU、GPU、DSP等传统芯片支持AI应用,二是用人工智能专用模块来支持AI应用。总的来说,这两个方案各有优劣。不过,随着人工智能技术的不断进步,对算力的需求也会不断增加,铁流猜测,在不远的将来,人工智能模块会像GPU、DSP一样成为SoC中的必备模块。如今高通的方案可能会被时代淘汰。

由于AI应用被逐渐发掘出来,未来,各大芯片厂商可能会开启AI算力竞赛。而中国企业在这方面有望拥有越来越大的市场占比和话语权。