7月23日,2019存储与数据峰会在西安举行。
本次峰会由陕西省科学技术厅、陕西省工业和信息化厅指导,陕西省西咸新区管委会主办,西咸新区秦汉新城管委会协办,西安奥卡云数据科技有限公司、北京世纪百易网络有限公司(DOIT)承办。
峰会以存储和数据为核心主题,旨在打造具有全球影响力的国际化、开放式、前瞻性科技盛会,促进存储与数据相关产业、学术、资本、人才等创新要素融合发展。
中国工程院院士、国家973项目首席科学家、浙江大学特聘教授、博士生导师谭建荣,中国科学院院士、西北工业大学教授、国家杰出青年科学基金获得者黄维,西安市政协主席、西咸新区党工委书记岳华峰,西安市副市长徐明非,西咸新区秦汉新城党委书记、管委会主任杨占文,西咸新区管委会副主任亢振峰,陕西省工信厅副巡视员郭正强,西安市工信局局长李初管,西安市科技局党组成员邓谷斌,清华大学计算机系教授、中国计算机学会信息存储技术专业委员会副主任、灾备技术国家工程实验室副主任舒继武出席活动,近千名国内外专家学者和企业代表齐聚峰会。
数盾科技AI事业部 总经理樊笑冰
数盾科技AI事业部总经理樊笑冰在峰会“安全可控论坛”上发表了题为《深度学习计算机存储一体机方案》的主题演讲,介绍了 数盾科技基于英伟达DGX Station 推出的数盾POD ,以优秀的性价比为高校和科研场所、医院搭建深度学习的平台客户提供 人脸识别、车辆识别、动作行为识别等方面的AI帮助。
以下内容根据速记整理,未经本人审定。
樊笑冰:大家下午好,我声明一下,今天的主题和信息安全的关系并不大,我来自数盾科技,负责AI事业部,之所以把我们分到这个论坛,我想是因为数盾科技的主业是做密码产品。
今天讲的主题是在深度学习的平台下计算和存储如何做结合方案。大会的主题是存储和数据的峰会,所以也不算跑题。
首先讲一下GPU计算的背景。
大家知道,现在人工智能、深度学习底层的硬件用的都是GPU的处理能力,蓝色的线。在前面几十年,CPU的计算能力是跟着摩尔定律的趋势走,每18个月翻一倍,但到2008、2009年时,这条线撑不住了,开始平稳下来,后来它每年涨10%。GPU是异军突起,在2005年左右,它的起点就比CPU的数据高,基本这些年也都是按照每18个月翻一番的计算线在走,大概到2025年左右,GPU的处理能力会比CPU快1000倍。左边是一个平台架构,大家可以看到,下面通常是我们跑深度学习,底层的硬件应该有CPU搭配GPU,CPU上跑操作系统,GPU跑具体的高强度的平衡计算。再往上有自己的系统,有人工智能的算法,最上面是应用,中间还有一块能充分的把GPU的速度调动起来。
这是深度学习的垂直架构,刚才讲到底层有CPU也有GPU的模组,或者有GPU搭起来的服务器,包括BGX的服务器,以及IBM、戴尔搭起来的品牌GPU服务器。这边是在亚马逊的AWS等上的虚拟GPU,中间是深度学习的框架,现在可能比较常用的有很多,右边的是在高性能计算或者是在一些图像影像处理和分析,我们的重点是在左边,在深度学习这一块。
在这上面是深度学习的应用场景,在医学影像、制造业方面,有很多计算机视觉的应用,科大讯飞在自然语言处理上,不管是语音处理还是翻译现在都有很好的产品;在电商有机器人,在金融业有反欺诈,这些都是人工智能在各个行业的应用。
刚才讲那么多主要是想铺垫一个背景,为什么我们的存储跟GPU的硬件要做搭配,因为大家可以看到GPU的处理能力越来越快,如果要把GPU的计算性能或者处理能力充分发挥出来,存储就要有相应匹配,尤其是如果是外接存储的话对存储的要求就非常高。
先重点讲一下英伟达的人工智能硬件。
大家知道,英伟达现在在全世界这个产业算是头把交椅。在人工智能硬件方面,主要可以把它分成二组,一组用来做深度学习的训练,另一组是做推理。训练是为了把一个算法或者一个模型从无到有的通过样本和训练平台,把一个算法给训练出来,推理是把训练好的算法装在实际应用的系统上,做实际的不管是图像识别还是声音识别、声音翻译这些具体的应用。
在训练方面,英伟达推出了DGX系列产品,包括DGX1、DGX2以及其它,这些算是最高端最快的产品,像DGX1,一台服务器的计算性能可以达到500个,这是非常惊人的计算性能和速度,但他们的成本相对来说也非常高,后面的网络通常是10万MB。DGX Station相对来说低端一些,成本也差很多。
通常搭建一个深度学习的训练平台时,会面临一个选择——是在云上做平台还是在本地的数据中心做深度学习的应用。
很多客户或者合作伙伴在早期探索时采取的方式是在云上做,现在国内的阿里云,国外的亚马逊AWS,他们都有GPU云,在GPU做虚拟化之后,把资源分配出来,刚开始早期探索时可以租一台GPU的虚拟机,数据级也比较少,跑一些运算,做一些模型训练。GPU虚拟机的成本不低,所以每次运行时都要做认真的准备,来节省成本。
当这条路走出来,知道深度学习的路径已经是可行的,就会搭建自己的本地的数据中心,刚开始可以搭一台或者二台的GPU服务器,这样可以做比较频繁、快速的实验。当数据量越来越大,人工智能算法或者模型越来越准的时候,可以再增添新的服务器来做扩展。
搭建深度学习训练平台时,通常来说都是面临这些挑战,首先是刚开始做设计时就要把它预备好是一个可扩展的系统,数据量有多大,人工智能的算法会有多复杂,都要先预测好,为以后的扩展做准备。IT人员在购买、安装、实施这些设备时会面临不同的方面,包括计算、存储、网络、软件,系统软件和应用软件的不同故障,所以IT人员也头痛,面临的技术支持也是多个点,计算、存储、网络、软件,每个部分都有自己的供应商,需要解决不同的问题时面临的基础支撑也是多个点,会面临到的许多挑战。
从硬件到GPU服务器、操作系统、深度学习平台,这些不同的平台,IT人员会面临很多不同领域的问题。
既然搭建深度学习平台会遇到这么多问题,业界现有的解决方案有哪些?英伟达的解决方案叫DGX POD,说白了就是把GPU服务器、网络、存储等打包,由他们的工程师把这一套系统提前做好适配、安装、调优,所有的工作都做完之后有统一的技术支持接口。刚才提到的各个客户或者各个IT人员所遇到的各种问题,基本有这个POD就能解决,优点很明显,但缺点也非常明显,非常贵,如果这是一台一体机,大概要卖几百万。
DGX—1的GPU服务器,每一台里有5个SSD,一个做操作系统,另外4块是数据,加起来是8TB的容量,在深度学习中,通常来说这样的容量是不够的,所以需要接外界的存储,这也是为什么英伟达推出了POD服务器,整个打包做。外界的服务器,我刚开始做了铺垫,要把它的性能充分发挥出来,外界的I/O一定要跟得上,这是在不同场景下所需要的性能能力推荐。如果做数据分析的话,大概万兆的网络就可以,如果做到高性能计算,可能就要从万兆到10万兆。
下面几个是做图像处理,现在人工智能最多的应用是计算机视觉,比如人脸识别、车辆识别、动作行为识别、视频里的物质分类,图片处理是人工智能里用到最多的一个应用场景,在不同的图片大小中,如果是256*256,4K无压缩的,在不同图片大要的情况下,需要推荐的外界存储网络类型或者I/O类型都有推荐。在不同的应用场景下,从万兆网络再到4万兆在到IB网络,都会有不同的需求。外界存储文件系统方面,用NFS就可以解决绝大多数的需求。如果图片比较大,可能会用到高行僧的NFS。在这种场景下,刚才讲到的DGX1本身带的那四款SSD就是做缓存,外界的存储用来储存大量的数据。
英伟达+第三方合作伙伴的POD方案,是一个所谓的参考架构,欢迎不同的存储厂商一起合作,推出不同的POD方案,目前为止已经有四五家和英伟达合作,包括IBM等都和他们有POD方案。但方案都比较类似,都是刚才提到的一个大而全的方案,里面包括DGX 1的GPU服务器,包括网络、外界存储。优点非常明显,免除了系统整合工作,快速、简单的部署,一站式技术支持,高性能高扩展性,缺点是非常贵。
在此背景下,数盾科技推出了数盾POD。
对市场做了分析之后,数盾科技发现深度学习有很多不同的应用场景,很多客户,尤其是高校和科研场所,甚至是医院,非常需要搭建深度学习的平台,但他们的数据量并没有那么大,或者他们的预算本身也没有那么高,通常来说如果能达到50TB的存储容量就够现在的需求,训练自己人工智能算法需求就可以满足。在刚才提到的非常高端的英伟达的POD和客户需求之间有落差,我们找到了这样的市场空间。
我们的做法是用相对便宜很多的英伟达DGX Station,用万兆的网络做直连,只连一台数盾的存储,做了适配测试以及容器化的部署,这样搭建出来的平台叫数盾POD,它的成本非常低,连交换机的成本都可以省下来,一台存储的原始容量是100TB,做双副本之后是50TB,大部分客户的需求已经够了。
这样的系统加下来是50万左右,和英伟达的POD比起来有几个优点,和动辄大几百万的比起来成本低了非常多,性价比也非常高,现在我们做万兆的网络,两条可以跑满,开箱即用,我们工程师已经把这套系统,已经把容器做完了测试、适配和安装。容器化,大家常用到的深度学习的框架,都可以以容器化的方式在上面安装部署好。
现在GPU的性能越来越高,如果要把GPU的性能充分发挥出来,存储要相应的能跟上去,但现在市场上大部分的方案,整体系统的造价非常高。我负责的AI事业部在做市场分析之后,推出了这样一个方案,可以做到相对来说低成本、高性价比,又能把GPU的处理能力充分发挥出来的一套系统。
这是我今天演讲的内容,谢谢大家!