DOSTOR存储在线 原创报道: “最近十年来,CPU的性能提高了100多倍,内存的性能也提高了几十倍,只有硬盘,仅仅提高了两倍,现在数据中心的瓶颈就在硬盘上,我们希望通过我们的产品改变数据中心。”两年前,忆恒创源联合创始人殷雪冰在创新中国DEMO CHINA 2011 杭州总决赛上说出了这番话,在这次演讲的最后,还处在创业初期的殷雪冰说:“我们希望借助资本的力量,借助各种各样的资源,做出世界级的企业。”
现在,殷雪冰与他的团队创建出来的忆恒创源(Memblaze)已经成为中国存储行业必须要关注的一家企业,虽然离世界级的企业仍有一定距离,但这家公司所设计、制造并付诸实际应用的Memblaze系列PCIe闪存卡,在多家国内知名互联网企业中的应用已经证明了其所具有的优异而又独特的价值。
自2007年开始认识到NAND Flash存储市场的巨大商机,并在2010年开始将这一预测付诸实施以来,首先且坚持采用Device-Based架构的PCIe闪存卡的忆恒创源,如今已经形成相对完善的产品布局,并在2013年初推出了创新性的“琴键”设计,其颠覆性的38种容量设计,在2013年英特尔信息技术峰会的现场一经展出,就成为了微博上IT圈子最火热的话题。
2013年忆恒创源的新产品被称为PBLAZE III,这已经是这家初创公司的短短3年时间里的第三代产品,从全高到半高,PBLAZE III以顺序读/写带宽3.2GB/s和2.5GB/s的速度成为当下PCIe闪存卡市场里的佼佼者,而更具突破性的15μs(缓存写入)延时以及50%甚至更低的CPU占有率、1MB的内存消耗,成为其标志性的Device-Based架构设计的优秀成果。
“琴键”设计就出现在这一代PBLAZE III上,不曾焊接在PCB板上的闪存颗粒与其著名的Fusion-io相同,通过可选择的模块来连接,而借助不同容量的闪存模块——被称之为M3、M4、M5、M6等等——的不同排列组合(不仅是容量,事实上也可能是不同品牌的闪存颗粒),38款不同容量的PBLAZE III就此诞生,而与此同时诞生的,还有425GB、575GB、750GB、1025GB、1175GB等等差异化明显的PCIe闪存卡容量。
这在忆恒创源被称之为竞争对手的多家PCIe闪存卡厂商中不曾出现,我们见到的多是整数(或者说是100GB倍数)的产品,而更不曾出现的,还有上面所说的Device-Based架构以及更低的处理器占有率、内存消耗与稳定的、抖动现象不明显的数据表现——这一切的实现,都来自于殷雪冰和他的伙伴、团队一起所做出的创造性设计以及对NAND Flash存储市场的倾力投入。
而这也引发了在第五届中国云计算大会上,DOIT记者与殷雪冰长达一小时的对话,在这场对话中,我们谈论了忆恒创源引以为傲的Device-Based架构,讨论了忆恒创源眼中的“英雄”与“竞争对手”,以及作为一家初创企业,忆恒创源38种琴键技术背后的原因和这家公司未来可能的技术走向。
PCIe闪存卡的时代:被忆恒创源改变的格局
提到PCIe闪存卡市场,我们不得不提起Fusion-io,虽然从时间上算起来,忆恒创源的两位创始人构想并设计、生产Memblaze闪存卡的时间与David Flynn的时间差距不到两年,但不可否认,正是David Flynn——这位Fusion-io的创始人——所开创的这家企业,掀起了一股经久不衰的PCIe闪存卡产品热潮。
正如殷雪冰所说,过去十年,处理器、内存无论从速度还是效率上都有着极大的提高,但对于服务器内部存储来说,无论是读写速度、响应时间还是可靠性上,其实都没有太过翻天覆地的变化,但PCIe闪存卡成为了这一切的终结者。
与通过SSD替换传统硬盘不同,PCIe闪存卡能够做到更大的容量、更方便的安装方法以及更简单的性能优化,同时,由于业界主流的PCIe闪存卡连接方式是以PCIe接口直连为主,这也就绕过了传统经过SAS、SATA接口及RAID控制器的连接方式,基于当下以英特尔为代表的x86处理器中集成PCIe控制器且通过处理器的QPI类通道进行连接,其与处理器的作用时间和响应速度更快、更直接,极大的改变了服务器内部存储的性能和响应时间表现。
PCIe闪存卡由此产生了巨大的吸引力,其动辄2、3GB/s的顺序读写速度,以及极大改善的随机读写速度,将NAND Flash在服务器内部的使用达到了极致,极大改善了“处理器-内存——服务器内部存储-外部存储系统”的数据链路的效率与响应时间,成为诸多企业数据中心十分关注和喜欢的产品。
尤其是在对读写响应要求极高的互联网市场,PCIe闪存卡几乎已经进入了每一家规模化的、知名的互联网厂商,前面所说的Fusion-io,甚至在很长一段时间内其公司超过50%的营业额来自于Facebook和Apple两个重量级的公司,而其客户中超过75%的比率都为互联网及公有云运营商。互联网及云计算公司对计算效率的迫切渴望,造就了Fusion-io这家公司如今每年超过4亿美元的营收,而这才是一家成立才短短7年的公司。
忆恒创源也同样获得了巨大的发展机遇,2011年11月,产品化不久的忆恒创源依靠强劲的PCIe闪存卡产品,获得了来自英飞尼迪股权基金管理集团和中关村创投的共同投资2000万元人民币,公司成立三年多以来,产品已被优酷网、人人网、豆瓣网、奇虎360、赶集网等采购,还与VMware、Dell、联想、曙光、浪潮以及多家世界500强等服务器厂商建立了合作伙伴关系。
对于曾经在中科院写代码的殷雪冰来说,或许不止是PCIe闪存卡改变了他的人生,更是他的忆恒创源改变了中国企业在原生、原创NAND Flash加速技术上的市场格局,在这样一个融合了电子信息、计算机、芯片设计、数学、物理等多门学科的领域,忆恒创源实际上正在悄悄的改变中国PCIe闪存卡的市场格局。
事实上,在DOIT记者所接触的不少中国互联网企业中,已经有至少2家企业同时在测试忆恒创源、Fusion-io和来自LSI的PCIe闪存卡产品,与Fusion-io或是积累更深的LSI同台竞争,这在国内互联网企业常见的“对标”或是“实物测试”中并不多见,虽然这还只是“万里长征的第一步”,但忆恒创源的出现,已经开始让我们看到改变国内数据中心供应商市场改变的可能,而在这背后,当然是殷雪冰和他的团队所设计的PBLAZE III等PCIe闪存卡产品所带来的不错的应用体验。
Device-Based设计的背后:忆恒创源“道路”选择
“大家所走的路不一样,但我们2007年的时候,觉得PCIe接口的固态硬盘就应该是这样的。”谈到为何以“Device-Based架构”来确定忆恒创源产品的架构发展路线图,殷雪冰说,这来自于“没有太多考虑,认为就应该是基于设备、基于卡的这条路走下去。”
在忆恒创源官方网站所提供的产品手册中,该公司提到,忆恒创源所采用的“Device-Based”架构属于“第三代PCIe闪存卡架构”,与第一代基于ROC(RAID on Chip),即RAID卡+SATA接口SSD不同,Device-Based的产品以PCIe直连为基本特征;而与“第二代Host-Based闪存卡”不同,Device-Based以嵌入式的处理器管理Metadata,并将更多的逻辑及应用负载基于卡上的处理器来解决,而不是去使用系统中的重要处理器的性能。忆恒创源认为,这样的架构更有效率,更容易扩展和提高产品的灵活度。
“Device-Based的产品化难度会更大,所以我们到2011年才有产品到客户那里去测试,但我们是第一家做出Device-Based的公司,但这样做是有必要的。”殷雪冰认为,Device-Based决定了忆恒创源的产品是一个“纵向产品与横向产品结合”的家族:“我们通过纵向产品,结合应用,深入到客户与行业应用中,同时保持横向产品的架构,以横向发展产品的扩展方式。”
忆恒创源产品架构的不同点
殷雪冰表示,虽然选择Device-Based的道路现在看是一条比较难走的路:Device-Based不仅在软件研发以及算法优化上有所要求,更重要的是,如何基于设备——也就是基于PCIe闪存卡上的处理芯片——且面向应用,进行硬件上的优化与设计。
但这样做的好处也显而易见,一方面,殷雪冰认为,横向扩展的架构更容易被客户所接受,无论是容量、性能的扩展在未来几年都会更快的发展,“能够通过纵向领域的发展带动横向领域的发展。”另一方面,正如DOIT记者向殷雪冰所问的那样:“是不是会更容易或者说更倾向于未来会做更多的事情,比如说做一台类似Violin Memory那样的全闪存阵列?”
而对于Device-Based的遐想,殷雪冰并未给出确切的答案,他只是说:“这会是一个可以选择的平台,你可以通过闪存做很多领域的事情。”
话题回到Device-Based架构的PBLAZE III如今的性能表现,殷雪冰表示,虽然没有走比较简单的、更偏向于软件(而不是软件硬件结合)的道路,产品化更晚、产品的研发升级与优化更难,但从部分性能表现上以及未来“闪存规模化的应用趋势”上,他对忆恒创源的产品更有自信。
Device-Based:闪存技术的发展方向?
“其实最简单的就是对CPU是不是友好,是不是会占太多的资源以及迁移的时候,是不是容易去做。”殷雪冰说,之所以现在忆恒创源的产品可以进入到许多技术实力很强、对产品要求严苛的知名互联网企业中,Device-Based及其所带来的一系列产品优势,起到了很重要的作用。
想要了解Device-Based为忆恒创源所带来竞争机会的原因,首先要了解,如何去评价一款PCIe闪存卡是否是优秀的产品,以及相应的来说,用户对于PCIe卡的需求到底有哪几方面?
首先,当然是PCIe卡的性能,这其中实际上包括了四个简单但又关键的指标:顺序读性能、顺序写性能、随机写性能以及随机读性能,但是,这四个简单的指标,背后却是一整套评价PCIe闪存卡性能指标的评价体系,这其中包括了纯粹的性能——以GB/s为单位的性能,以及平均延时、延时抖动等关键信息在内的性能指标。
其次,是对系统处理器——CPU的工作负载的影响。在大多数情况下,这是一个容易被忽略的指标:一方面,由于英特尔将PCIe控制器已经放到x86处理器中,大部分认为之前通信所产生的影响已经微乎其微;另一方面,很少有人去严格比较过不同架构的PCIe闪存卡在CPU不同负载情况下的性能表现。
第三,是需要特别强调的写性能与写放大,尤其是后者,对IOPS、延时抖动、设备的寿命都产生了重要的影响。第四则是兼容性与可迁移性——这两点指标虽然不及前面的对产品的“使用性能”产生重要的影响,但对于大规模的部署和可能出现的平台移植来说,隐形的时间和开发成本是不容小觑的。
忆恒创源产品优异的低延时表现
而从Device-Based本身的产品特性上来看,忆恒创源确实在这几方面有着天然的优势,从最简单的兼容性和可移植性来说,基于Device-Based的产品,驱动层更为简单,PCIe闪存卡的处理器所接受的只是“任务”,并提供反馈,而在HOST-Based的系统中,PCIe闪存卡的处理器需要通过驱动与处理器产生密切的关系,这导致驱动层非常复杂且难以移植。
与此同时,与系统CPU紧耦合的架构带来的另一个不可忽视的问题,是对系统CPU和系统内存的占用。x86处理器虽然天然的被设计为去“完成复杂的多样化工作”,但显然Device-Based的设备占用CPU的资源会更少——在虚拟化环境日益成熟的今天,CIO会榨取CPU的每一个资源,如果PCIe闪存卡过多的占用了系统资源,那么对于整体系统性能的提升显然不是一件好事——当处理器无暇分身或是被PCIe闪存卡到处“追债”,为什么不在一开始就去考虑对CPU和内存占用更少的PCIe闪存卡呢?
但Device-Based架构的最关键一点,是通过使用高性能的处理器——目前是FPGA,未来可能是ASIC——架构PCIe闪存卡,能够较少的依赖或者说占用系统CPU去处理优化PCIe闪存卡优化的算法,大量解决高IOPS状态下的延时、闪存延时抖动、写放大、写延迟的算法通过PCIe闪存卡板载的处理器以及专用的优化算法结合,完全服务于PCIe闪存卡,极大的解放了系统CPU的使命。
比如说,忆恒创源在解决延时抖动上,就通过IO延时平滑算法,针对个别超长延时的IO 请求进行削峰滤波处理,),当运行在较高IOPS情况下,Memblaze 会自动调整GC 算法和内部等待队列深度,并将IO 延时进行平滑处理,从而避免产生超长延时的IO,减少对后端系统的影响,使得用户的应用运行更加平稳顺滑。
延时抖动在系统不同层面的放大
以及在对PCIe闪存卡的FTL进行处理时,忆恒创源是在板卡内部,而不是通过驱动端——意味着是系统CPU和板卡配合完成——来完成的,显然,FTL的处理流程,主机与PCIe闪存卡之间的状态信息交换、中断频率等都能够得到很好的优化。
总的来说,Device-Based的知识产权全部集中在PCIe闪存卡的控制器上,这一控制器将形成与系统CPU“几乎平等的地位”,而不是依赖甚至是过分的依赖系统CPU的处理能力,这样一方面让系统CPU能够解放出来,减少单纯的IO操作;另一方面,像忆恒创源这样的供应商,能够将更多的优化算法放到PCIe闪存卡上,而不用担心占用系统CPU而产生不好的影响。
但Device-Based也并非没有“阿格硫斯之踵”,显而易见的问题是,这对于供应商的研发能力、算法优化能力提出了极大的挑战,尤其是当PCIe闪存卡“简化到只暴露一个接口”给系统CPU时,针对不同应用程序、应用模式、应用环境的优化重担,实际上落在了供应商的身上。如果是HOST-Based的产品,大可以通过提供完整的开发环境、代码库和驱动指导,将更多的研发工作转移到用户或是合作伙伴身上。
而另一方面,Device-Based也要求PCIe闪存卡的控制核心性能足够强大,不过,好在行业内有赛灵思(Xilinx)这样提供高性能处理器的供应商提供不断更新的FPGA产品。但众所周知,FPGA更多是应用于产品研发、测试的过程中,而非成熟的量产化产品的首选,这也就意味着,殷雪冰必须要做出一个选择:是继续坚持FPGA,还是设计制造嵌入自身知识产权的ASIC芯片取代FPGA?对此,殷雪冰表示:“忆恒创源肯定会去考虑AISC的路线图,但如果FPGA能够继续保持成本和性能的优势,可能忆恒创源还会继续的使用,毕竟去做一个属于自己的ASIC还是比较昂贵的事情。”
但殷雪冰也表示,闪存市场是一个飞速发展和扩张的市场,几年后的事情其实谁也说不准,他认为,随着闪存价格的不断下降,闪存厂商的发展会越来越好,当然,这也包括忆恒创源。
忆恒创源:闪存时代如何发展?
“闪存的价格肯定会下跌,最终有一天会跌到大家都用得起,到处都是闪存的情形。”殷雪冰认为,闪存供应商必须清楚的认识到,闪存价格的下跌趋势难以避免,必须要通过扩展产品范围、迎合用户应用模式的趋势以及积累用户基础来稳固自己的收入水平。
殷雪冰表示,在闪存价格下滑的过程中,并不意味着用户会等着价格下跌到合理水平再去购买产品,用户会开始尝试采购闪存,并逐步扩大规模,但在这个过程中,用户实际上是在不断摊薄成本(事实上,就和买股票、黄金不断加仓平均成本的道理是一样的)的。因此,用户对于“所需要的容量”有着更为准确的定义。
谁能够成功占领市场的竞争话题就演变为这样一个话题:在现阶段谁能够给出最优化、最灵活的解决方案用户就会先开始采购谁的产品,“38种的琴键设计,虽然主要来说对于我们的生产、物流和库存有很大好处,但最重要的是用户能够按需求购买。”
殷雪冰在回答DOIT记者有关为什么推出38种容量配置时说:“至少现在闪存的价格还是很贵的,甚至每块卡只是几十GB的容量,用户都会很关心。”他透露:“这样的好处是,用户想买多大容量的,都可以买得到,而不会出现到竞争对手那里,只有A、B两个个选择,而没有“中间选择”的尴尬,毕竟用户不一定想为用不到的容量花钱。”不过,殷雪冰也对DOIT记者承认,38种琴键设计“是在闪存仍然高价格的时候必要的设计”,但一旦闪存价格足够便宜,这一设计显然“也就到了发展的尾声”。
除此以外,谈到PCIe闪存市场的产品架构发展趋势,殷雪冰认为,首先必须要看到的是,PCIe闪存卡的性能、效率更好,“SAS RAID+SSD”的模式会逐渐被市场所遗忘,尤其是现在服务器与RAID的关系正在“土崩瓦解”,服务器RAID的市场正变得越来越小——他提到,在很多互联网公司,现在已经“很少有服务器RAID的应用”,用户更多通过节点级颗粒度的可用性来弥补单个节点可用性的缺陷。
而谈到如何深化产品在用户端的认知与销售,殷雪冰表示,忆恒创源认识到,在闪存价格仍然偏高的时间段内,PCIe闪存卡是与用户的应用形态、应用模型紧密相连的,绝大多数的用户,都是因为某个或某几个应用——比如说数据库、BI、VDI——去选择使用PCIe闪存卡,而不是为了整个业务系统的升级采购闪存产品。
因此,如何与应用紧密相连是忆恒创源拓展市场最关键的一步棋。殷雪冰表示,一方面,忆恒创源更多的与服务器OEM厂商合作,借助这些合作伙伴的力量进入到用户的数据中心;另一方面,与服务器、存储、软件等结合,建立专门针对某些特殊应用(甚至是用户数据特征)而优化的、植入忆恒创源PCIe闪存卡的解决方案。
“(忆恒创源)会在软件上投入更大的精力,我们会在数据库、云计算、大数据方面,提供更多的软件和解决方案,帮助企业IT人员能够通过我们的软件获得最大的收益。”殷雪冰最后谈到,忆恒创源不会例外于这个“软件定义存储的时代”,更多的软件、更多的针对应用的软件优化、更多的针对不同数据和应用类型的软件定义的功能、优化、算法,将会是忆恒创源未来最重要的发展路线。