10月11日, 2017阿里云栖大会在杭州云栖小镇举行,这次大会吸引了来自全球近5万名嘉宾参会,堪称史上最强。作为阿里在数据中心与AI计算基础设施的重要合作伙伴,浪潮在阿里展台发布了基于F10A的AI线上推理、GZip算法与WebP图片转码三大云场景FPGA加速方案,在扩充FPGA生态的同时,也将为从事AI开发与应用的公司以及大型数据中心用户,提供更高性能功耗比的专用加速芯片选择。
AI是最壮观云栖大会的热点
“飞天·智能”是本届大会的主题,对于人工智能的发展与未来,马云在首日的演讲中谈到“当同一件事情几个方向都在谈的时候,意味着一个时代的到来。”他认为“人工智能,机器应该像人一样会学习,而不是和人一样思考”,同时也提醒到“对于下一次技术革命,如果没有想象、没有担当、没有学习能力和认知能力,人类是悲哀的。”
异构计算是当今IT业界公认的实现高效人工智能计算、加速人工智能创新的新一代计算架构,通过使用特性不同、架构不同的不同计算单元,人工智能计算能够获得最佳的计算性能、计算效率和计算经济性。
在云栖大会的异构计算&高性能计算分论坛上,阿里云异构计算高级专家龙欣就表示:“阿里云正在以异构计算为核心构建业务永续、高性能、高性价比、弹性的人工智能引擎。”而对于异构计算中正扮演越来越重要角色FPGA,龙欣强调:FPGA具有能耗比、低延迟、高带宽、常规浮点运算力迅速迭代提升等突出优势。此外,FPGA作为硬件加速+硬件可编程的技术,可以“在云上运行运行硬件自定义逻辑”的特点可以满足不同的应用定制化需求,是“专用计算中的多面手”。
浪潮推出领先的FPGA AI加速方案
AI同样是浪潮最重视的未来战略级技术,并致力于为高速发展的人工智能应用需求不断创新设计&提供顶尖的AI计算产品方案。2017年浪潮在人工智能计算的数据中心产品创新、深度学习算法框架优化、生态系统建设等方向已全面发力。
此次浪潮发布的三大FPGA加速方案全部基于自主研发的F10A,这是目前业界支持OpenCL的最高密度、最高性能的FPGA加速设备。F10A的单芯片峰值运算能力为1.5TFlops,而功耗仅35W,每瓦特性能达到42GFlops。同时,F10A设计半高半长PCI-E插卡,具有灵活的板卡内存配置,最大支持32G双通道内存,能够寄存更多的并行任务数据。此外,F10A支持2个10Gb光口,可以实现数据直接从网络到板卡处理,无需经过CPU,减低了传输延时。
基于FPGA具有可编程专用性,高性能及低功耗的特点,浪潮F10A AI线上推理加速方案针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。
实测数据显示,在进行ResNet残差网络的图片识别分类任务时,浪潮F10A加速方案图片处理速度可达每秒742张,Top-5识别准确率达到99.6%,相比同档次GPU能效比提升7倍以上。而与通用CPU对比,在处理这种高并行、小计算量的任务时,F10A的优势将更明显。
值得一提的,浪潮F10A AI线上推理加速方案部署非常简单,用户只需要将目前深度学习的算法和模型编译成与浪潮深度学习加速解决方案的配置脚本,即可进行线上应用,省去至少3个月到半年的开发周期和相关成本。
此外,浪潮推出的WebP图片转码F10A加速方案,针对图片数据的压缩嵌入基于FPGA计算环境下的WebP编解码优化算法,通过充分利用硬件流水设计和任务级并行,大大提升WebP图像压缩编码算法的处理性能,能够实现JPEG-WebP图片格式的快速转换,比传统实现方式的整体处理效率平均高9.13倍左右,最高性能可比CPU提高14倍。而为了解决传统压缩架构的弊端,浪潮F10A GZip算法加速方案充分利用板卡硬件流水设计和任务级并行,大幅提升了压缩任务的吞吐量并有效降低CPU的负载,压缩率最高可达94.8%,压缩速度达到3.2GB/s,10倍于传统方法的压缩效率。
目前,浪潮已占有中国AI计算服务器市场60%以上份额,与百度、阿里、腾讯、科大讯飞、奇虎360、搜狗、今日头条、Face++等人工智能领先公司保持在系统与应用方面的深入紧密合作,帮助客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。相信随着三大场景FPGA加速方案的推出,将让浪潮在AI计算领域保持更大的竞争力与领先优势。