杨应麟:应用于AI上的低延迟NVMe系统

7月20-21日,2018全球存储半导体大会暨全球闪存技术峰会(简称“GSS大会”)在武汉光谷拉开帷幕,大会以“构建闪存新生态”为主题,针对全球闪存和存储半导体的产业新生态、行业新热点、企业新发展,进行全面分析与解读。国科微美国研究所总经理杨应麟发表了题为《应用于AI上的低延迟NVMe系统》的主题演讲。

以下为速记部分内容,未经演讲人确认:

杨应麟:各位嘉宾,我是杨应麟,美国国科微美国研究所的总经理。

今天我给大家演讲的内容的是关于AI的方面,在我之前的演讲嘉宾谈到了不同的应用场景以及分类,我们也发现了它还有一些不同寻常的应用场景,包括股市或者癌症治疗的一些非常态情况的捕捉,除此之外,还有现在可以和人类下棋的阿尔法狗机器人等等。基于以上不同的分类,我们可以识别出迎面而来的公交车或者是一辆车辆,以及看到人行道是否处于可以通行的状况,绿灯是否亮了,以上这些都是人工智能的具体应用。比如,在这里我们看到一名行人正准备过马路,但是我们又可以看到方向不同,那么我们到底是转向左边还是右边呢?这个是瞬间做出的决定,它停下然后马上又跑起来,这就是AI避免公交事故的一个办法。

所以我们必须有这样一个系统,将不同的数据进行积累,包括来自传感器和摄象头的数据,这些数据来了之后,我们必须对他们进行一些处理,如噪声的过滤,或者是数据格式的处理,还有数据的安全性压缩等等,另外还有机器学习等等。我们还会有不同的候选模型进行选择,然后才知道哪个是最好的学习模型范本,看左边也就是数据处理的部分,网上或者是一些商场会储存这些数据,然后借助模型版本进行机器学习,然后把他们归纳起来应用,所以这里有很多的数据。另外还有波音公司的无人驾驶,它每小时会有80TB的数据产生,所以我觉得这一切归根结蒂都涉及到机器学习,所以我会把这个部分移除。

现在我们看一下数据中心需求很大的功能。我们所做的是虚拟学习,如何使这两个部分能够联系起来呢?数据和学习,所以我们在中间填补了一些虚拟化。我们有一个这样的虚拟化储存器。我们把它们连接起来,所以会有很多的数据在中间来来回回的转移,这个部分有数据的处理,所以我们看了储存。我们让数据在储存器中转移,包括前面我们提到的一个图片,会在这里我们被放大或缩小,这就是我们的人工智能学习的一个算法。

那么,我们现在谈到这些技术有哪些优势呢?在这张片子里,我们看到固态硬盘的一个学习部分,通过找到它的数据正如之前我们提到的无人驾驶的汽车一样,那么我们可以去管理和处理这些数据,而且这样的一个机器学习的过程应该是有一个层级的,最重要的是找到合适的算法,使我们能够通过这个算法建立起这样一个级别。另外还有深度学习的一些算法,大概可能会有50个层级用到这个里面,我们必须要找到一个最好的算法去使用。因此说,这部分是一个有序的模型,有级别的、层级的模型,这些不同的节点都是非常重要的。

还有一个虚拟的机器的这样的数据中心,所有的信心我们都可以通过它来处理,最后有什么好处呢?基本上我会减少处理量,通过这样一个方法它是一个关键点。每年我们会发现和诊断400万例这样的例子,所以如果我们通过这样的方法帮助我们去了解这些全球被诊断的新增的癌症病例,包括去进行数据的分析,还考虑到这些病患是否有足够的经济来源,去服药,去确保在它最终死亡之前能够找到解决办法。

下面我想谈一下我们的企业,今天早上我也听到有些学生会受到邀请来到这里参加大会,这是一个很好的学习机会。我们的公司在北台和硅谷设有研发中心,在成都、北京、上海、深圳等地也有我们的分子公司等。去年国科微在深交所上市,我们的员工有近600人,绝大多数在美国从事研发的工作人员都有博士学位。我们的业务范围包括四各方面,监控、广播电视、存储,还有物联网。可以说我们的工作涉及到整个市场的不同细分部分,包括企业和专业SSD的市场和消费者市场。在控制器方面,我们获得了中国信息安全测评中心、国家密码管理局等多项认证。

下面回到技术方面的介绍,刚才谈到了存储,下面我们看一看数据是如何处理的。在这里我们可以看到一些数字,假设这些人都在使用智能电话,这意味着每一个人都会产生大量数据。基本上未来的数据收集会来自于很多的方面,包括前面提到的自动驾驶数据等等,我们生活的方方面面都会产生大量的数据。在这种情况下,我感兴趣的是,当我们在街上行走的时候,有人喜欢自拍,而自拍也会产生大量的数据,而且大部分人会用到美颜功能,这些应用都会产生大量的数据。

另外,我想介绍的是我们的低延时存储的系统。早上我们也听到了很多这样的技术,如何使用这些?我们先来看看关于存储方面的要求,包括深度学习的算法,我们有2600万个这样的参数,放在网络中进行深入学习,如果把这些汇总起来,我们可以得到这样一个图片。如果使用一个这样的监控摄像机,然后进行一些检测。我们在天安门地区范围内,放置十个典型的集线器摄象头,它的性能大家非常清楚,存储的数据量级是海量的,所以在这个方面我们要去补充一些对储存的需求。如果我们想知道一张被拍摄的图片中发生了什么,需要把这个复杂问题简化,我们希望从这里获得一些数据,包括前面嘉宾谈到控制器,一些制造商已经可以提供这种低延时的产品,所以在技术方面有很多的优势。

下面给大家看一个非常有意思的图片,一个机器狗正在喝马桶里面的水,我觉得十分有趣。在这里我们可以看到,它的神经网络使用了大量的数据和内存,这是我要给大家强调的第一点。第二点是移动和处理,它更类似于价格昂贵的储存,因此减少这样的一些延迟变得至关重要了。

下面看看另外一个例子,这是谷歌的在线翻译软件,使用了人工智能深度神经网络。我将英文输入后,这个上面的中文可以准确的翻译出英文想要表达的意思,这就是很好的人工智能,谢谢大家。