美光陳詩義:QLC适用于AI机器学习场景

2018年中国存储与数据峰会第二天的闪存存储与应用论坛上,美光科技亚太区解决方案架构总监陳詩義介绍了前沿的NAND技术QLC的应用问题,QLC适用于读密集而非写密集的场景,而AI和机器学习的场景中,通常要靠读取以往的数据进行分析,迭代遍历下的机器学习过程需要很多反复读的操作,读的比例比写的比例要高的多,恰好适合QLC的特性。

美光科技亚太区解决方案架构总监陳詩義

以下内容来自现场速记:

各位嘉宾早上好,非常能够在这个大会给大家分享美光对于新的介质的一些想法,还有这些新的介质能够在未来创造哪一些不同的应用情景。众所皆知现在最新的QLC可能是一个比较新的(闪存介质)技术,它未必能够应用在所有应用上,所以我今天想跟大家分享一下QLC在什么地方能够发挥它的潜能?

首先我们先看一下我们所谓的数据经济。我们每天在想怎么将数以亿计的互联网设备连接起来,连接是大家都能做到的事情,重要的是我们怎么样能从这些数据里面拿到有益于的大家的实时数据做分析,然后最重要的是怎么在业界里面做出价值,这是非常重要的,大家每天在思考的事情。

如果从数据的海量数据来看,仅仅去年我们已经在业界里面大家已经制造了有2.2万亿GB的数据,这是非常大的数据。大家有没有想过这么多数据我们怎么去应用而制造价值?这也是我们今天希望探讨的一部分。我们预测仅仅三年就会翻3倍,到达6.2万亿的水平,这是一个非常大的增长,数据越多问题就越多,我们怎么去善用我们目前的技术?怎么去处理这些不同的数据?

我们也认为AI是一个非常大的动力,非常大的一个能够改变规则的动力。为什么?因为数据多,我们不可能用人工去分析,人工智能肯定会是未来一个非常大的趋势。我们能够通过AI去分析、收集大数据,从中能得到一些趋势,然后去制造一些非常巨大的市场价值。同时大家也有目共睹,现在目前语音识别已经增长的非常快,已经进入了主流的状态。所以这也是为什么我们能看到AI是一个能够改变未来的一个非常大的趋势。

这些改变会带来哪一种变化?

如果我们从数据中心看,我们美光公司认为大概仅仅三年,企业在数据中心上面的金额大概会提升2.6倍左右,这主要的原因就是由AI而引起的一些变化。因为当你要用AI做大数据分析的时候,往往你需要非常非常高的配置。因为现在现行的CPU已经有足够的能力去做非常高的运算,所以瓶颈还是在IO。

所以为了让AI发挥更大的效率,我们需要增大DARM方面的配置,同时也需要增大SSD方面(的配置)。所以我们预测如果要做一个更好的AI设备,我们大概看到我们需要从现有的配置把DRAM翻6倍,SSD翻2倍。

从这个观点来看,我们也预测在2025年那个时候能够提供AI服务的服务器可能占比已经要接近大概四成左右,这也是市场未来的趋势,所以从这个观点来看,这个市场会怎么去变化,你怎么善用DRAM和SSD来达到更高效率的数据处理。

另外一件事情我们也观察到,现在海量的数据有一个特性,就是很多数据我们主要要做的事情是怎么能很快迅速去分析,而不是重复去写。你写的一遍之后,就基本上不会再重写了。你主要要做的是怎么去高速分析你现有的数据,因为很多业务等等都需要知道以往的数据来做下一步的决策,所以这也是一个非常有趣的事情,跟以往可能经常要擦写的业务已经有了非常巨大的改变。

从以往的业务来看,我们大家都非常清楚,以前的传统业务可能就写1次就要读4次,从我们的调研当中发现AI不是这么走的。AI通过深度学习或者机器学习,基本上是要靠读取以往的数据进行分析,比例已经从4:1变到5000:1,意味着你以后要的配置可能不需要他们关注写性能,所以这也是为什么我们要在这个大会上跟大家分享这些未来的改变,看看我们怎么能够善用现有的技术来把科技推到更高。

接下来大家可以看到这个介质是非常重要的事情,我们多年前推出MLC,现在在市场上已经没有看到任何厂商出任何用SLC的产品了,主要是因为它们已经逐渐慢慢被MLC、TLC、QLC替代了。

当年刚刚推出的时候,MLC的擦写次数大概有100K左右。随着技术的发展,我们已经不需要那么多擦写,因为主控和那些软件已经能够善用介质的性能,在颗粒的层面不需要做到100K擦写的次数那么大、那么昂贵的一种做法。从这边来看,我们增加了(NAND)密度,我们擦写的数据已经降到大概1.5K左右,所以这也是和我们之前看到的那些数据有相关的部分,目前QLC我们定位是在1.5K左右。

QLC这个新的介质能够用在所有的业务上面?当然不是所有业务都能够用QLC。我们分析过,这个图片(下图)是让大家看一下我们觉得QLC在哪一部分能够发挥它最佳的应用场景。

首先(QLC)当然写性能就没有TLC或者以往的MLC那么好,不过如果我们是做顺序的大快写这是非常好的应用场景,例如做视频的串流,都是非常适合运行在QLC上的业务,或者是机器学习、AI同样如此。

你可以看到(上图的PPT),我们所列的几个业务都是非常合适在QLC上面应用的。比如说机器学习、BigData。除此以外,最下面那一行也让大家知道,我们看到这些技术的增长速度有多快。如果你从AI和实时的数据复杂这两大块看,它的比大概有43%左右,这是增长非常快的,所以我们也希望能够通过QLC的产品来解决这个问题。

换个角度我们看看整个大市场,我们怎么能够通过新的介质来提升大家的运用效率?首先我们能够提供到8TB的产品来满足需求,同时在性价比也是能够达到一个新的等级,能够让它更有效应用在你们的业务里面。这个业务增长非常快,这是商机,大家能够共同去开拓的一些商机。如果走出来看,这个产业的年比增长是大概28%左右,所以我们觉得QLC这时候是可以开始为大家解决产业面临的那些数据处理的问题。

接下来我要跟大家分享一下QLC会不会替代TLC?以我们的分析是不会的,因为QLC目前现状是有它自己的特性,读写肯定没有TLC那么快。所以我们特别找了一些适用QLC的业务,所以你们从图片可以看到,大家所熟悉的MLC从2017年开始将逐渐降低。

我们觉得QLC可能会和TLC并存,会慢慢增长,慢慢把MLC那部分替代。未来我们可以看到MLC、TLC、QLC和QLC为主流流,三年后QLC占比会慢慢增加,不过不会替代TLC。我们慢慢发掘QLC的潜力,把QLC的性能全部发挥出来。

下一个问题是Needs,这个图片是跟大家讲解一下我们现在看到的Needs的问题。早在2016年的时候,灰色的那块比较大。

因为业界的转变,我们也慢慢看到灰色的部分开始缩小了,因为业务基本上用不了那么大的。就等于OP一样,可能你有时候不需要那么大的,你就把它调大之后,从你的成本来看这基本上是最好的一个决定。

所以从这个图片大家也可以看到,基本上我们已经看到很多业务能够在小于1个DWPD下操作,这个已经发展好多年了。2017年超过七成以上业务,能够使用低于1DWPD,所以希望大家能够从这方面思考一下,到底你们现在业务上所定的规格是不是需要重新考虑,把规格调低一点,以达到更高效率的闪存能力。

在美光官网上可以获取一个AI的方案文档,这是一个很传统的机器学习,会做一个(数据)搜集和分类,这个文档介绍了使用QLC加速机器学习的操作。如上图所示,使用QLC的5120 SSD和机械硬盘做了一个对比,可以发现基本上很多时间呗节省下来。从这个图片来看,我们得到了几个结论。

在你们越做越多的机器学习,你能够省的时间是越多的,从仅仅9分钟到13分钟而已。同时如果数据越大,能够节省的时间越多,这是因为我们把这个大块的数据写到QLC上面去,我们也能够用很快的速度把它读出来,所以这也是为什么让大家觉得AI是一个新的适合使用QLC的应用场景。从CPU或者GPU的角度来看,我们很多时候都让CPU、GPU在等待结果,在QLC消除IO的瓶颈后, CPU、GPU使用效率也随之提高,这也是我们看到的一点。最后当然因为这个QLC是基于固态硬盘,我们在节能那边也能达到3倍,因为这个盘子里面我们没有任何机械的成分在。

首先我要跟大家总结三点。

  • 现有的数据经济是非常非常有利于机器学习和AI的,因为数据的容量越大的话,海量的数据是需要AI和机器学习来处理分析,让你能够拿到它能够体现的一些东西。
  • 我们也认为AI会是一个非常非常重视以SSD为主的应用场景,因为AI基本上就是不断地去学习。而不断学习,你不可能把这些新的资讯放在一些比较慢的介质上面去,所以我们觉得这个是能够很好发挥SSD的效率的一种应用场景,就是QLC,美光推出的一个新存储介质。
  • 最后当然QLC有自己的特性,如果和Xpoint搭配,能够做到更高效率的数据读取,能够让你们做到更好实时的数据分析。

以上就是我演讲的全部内容,谢谢大家!