就PCIe存储交换机技术发展与制造商展开对话

PCIe交换听起来确实是个老生常谈的话题,但它实际上已经成为技术变革当中的关键性组成部分,并将最终影响到服务器及存储阵列间边界的进一步模糊以及由此带来的数据访问速度提升。

位于温哥华的PMC-Sierra公司已经推出了自己的Switchtec交换机方案,而我们则与该公司产品营销经理Ray Jang探讨了为何此类技术目前再次受到高度关注。

记者:PCIe交换产品有着怎样的存在背景?

Ray Jang:PCIe标准最初建立的初衷并非面向相对较为严苛的企业级存储、服务器以及数据中心设备要求。举例来说,在数据中心环境之内,预期之外的卡、驱动器乃至其它周边设备插入与拔出绝对不能引发CPU以及/或者系统的崩溃,这已经成为体系运作当中的关键性前提。标准PCIe交换机并不能顺利应对这些每天经常出现的意外状况,而这也成为PCIe机制在企业系统当中全面推广的一大障碍。

各类重大技术创新需要与SAS等传统互连技术所提供的稳定性及可扩展成本效益水平相匹配。PMC公司将来自我们SAS连接产品的相关专业知识、高级SERDES功能以及源自IDT的PCIe交换IP加以结合,打造出一套面向市场需求的PCIe存储交换机。这类产品使得基于PCIe-SSD的系统成为可能,并保证其具备弹性、可编程性以及大规模部署所必需的高级诊断能力。

记者:第一,为什么您的客户需要上述能力?其次,这一切会给最终用户带来怎样的收益?

Ray Jang:系统设计师们需要一套可靠的PCIe交换解决方案来将处于单一机柜内的高性能PCIe驱动器池同各类关键性功能对接起来,具体包括高级诊断与调试工具,同时亦需要利用深层编程能力来解决可靠性以及互操作性方面的挑战。

我们的客户还能够从集成化可编程处理器当中受益,也就是允许他们对PCIe交换功能进行强化并利用我们提供的SDK处理相关错误。此外,集成化Enclosure Management解决方案则能够显著简化开发工作、从而更快地将产品交付市场。

利用Switchtec PSX所构建的系统在能耗方面只相当于使用其它PCIe交换机方案的40%,这相当于在每台机架当中节约近1000瓦功率。此类系统还能够将以往交换机对典型闪存阵列的寻求降低75%,从而使得系统设计师能够进一步提升闪存存储密度、降低原材料使用成本并改进平均正常运行时间以获得更为理想的可靠性表现。

"最终用户则能够充分享受PCIe存储所固有的高性能水平及低延迟效果。"

记者:那么采用PCIe交换机制又会给服务器带来哪些收益?

Ray Jang:与前面提到的收益相同–PCIe弹性、可扩展性、可编程性以及高级诊断功能–这些也同样能够由PCIe交换机制提供给服务器应用。最终用户则能够充分享受PCIe存储所固有的高性能水平及低延迟效果。

记者:PCIe交换与NVMe之间又存在着怎样的联系?

Ray Jang :PCIe标准指定了一条高速串行传输通道利用1到32通道端口与终端进行互连。在多通道端口当中,数据包会以跨通道形式传输,这就使得数据吞吐能力完全取决于端口的整体传输带宽。PCIe SSD等目标设备一般会采用1个、2个或者4个端口来与CPU直接对接。

这种直接而速度极快的CPU连接机制使得PCIe相较于串行连接SCSI(简称SAS)以及SATA SSD拥有着显著的性能提升–因为后两者要求使用独立的控制器在PCIe与SAS/SATA协议之间进行翻译。

NVMe规范则利用PCIe总线进行SSD访问。为了提升CPU利用率并获得更高的数据吞吐能力并降低延迟水平,NVMe标准在初始设计当中就充分发挥了PCIe SSD方案的并行优势与低延迟特性。在配合每通道每秒8 Gb传统(即GT/s)的传输能力下–也就是PCIe 3.1标准规范–NVMe能够在随机与连续性能两方面带来显著的性能提升。

由此带来的结果就是更高的数据访问速度以及进一步改进驱动器利用率。这些收益促使业界利用PCIe与NVMe打造出最新一代SSD产品。新架构目前仍在不断演变,旨在利用PCIe存储交换机来构建下一代企业存储系统设计方案,从而最大程度发挥NVMe SSD的性能优势。

PCIe交换与NVMe Fabric

记者:PCIe交换与NVMe Fabric之间的关系又如何?

Ray Jang:PCIe交换将成为NVMe Over Fabric当中的重要组成部分,因为它将在Fabric后端提供必需的高性能连接。NVMe Over Fabric将被用于提升NVMe标准的适用范围与可扩展能力,并以此为起点允许客户接入到更为庞大的NVMe SSD当中。这些驱动器池需要彼此连接在一起,而后接入Fabric网卡,而PCIe交换机制也将在这里发挥作用。

记者:为什么不使用InfiniBand作为替代方案呢?

Ray Jang:使用InfiniBand(或者iWARP,或RoCE)对于单一NVMe SSD来说成本太高,而且在大多数部署场景下亦会占用太多功耗。InfiniBand以及其它RDMA型Fabric方案确实能够提供出色的可扩展能力以及可管理性,但却会占用过于高昂的投入以及功耗。对于很多应用程序来说,最为合理的方案应该是利用RDMA与NVMe SSD资源池相对接,而后利用PCIe交换机制在该资源池内部实现各驱动器的彼此互连。

记者:那么为什么不使用10 Gb以太网或者40 Gb以太网来代替PCIe交换机制呢?抑或是100 Gb以太网?

Ray Jang:使用基础的以太网连接进行NVMe SSD接入并不是个好主意,因为以太网帧与NVMe命令之间存在着协议翻译过程。如果我们使用基本的以太网网卡,那么这项翻译任务就需要着落在CPU身上。这会增加CPU负载、提高延迟水平,而且有可能在我们尝试进行性能扩展时导致问题–因为CPU将成为扩展后体系中的瓶颈所在。

在NVMe Over Fabric当中,我们需要使用RDMA来实现在硬件当中处理协议翻译,并借此改进性能同时降低CPU负载。再次强调,对于单一驱动器而言这样的Fabric方案并不合适,而PCIe交换机制则能够在这样的情况下扮演重要的角色。

"NVMe SSD一切以性能与延迟为考量"

记者:关于PMC PCIe交换技术及其产品,还有哪些情况值得我们关注并了解?

Ray Jang:NVMe SSD一切以性能与延迟为考量。此类设备能够在利用PCIe交换机制实现本地连接、RDMA实现长距离连接时发挥出最佳性能。PCIe交换机制允许我们将大量NVMe驱动器对接在一起,而且无需处理任何协议翻译工作,而这也将成为性能优化工作中的核心所在。

除此之外,PMC Switchtec产品还拥有一系列独特的功能,可以保证此类驱动器资源池的管理工作变得成本更低廉、功耗更小且难度更低。PMC Switchtec存储交换机与Flashtec SSD控制器相结合则能够实现下一代高性能存储解决方案,其在与RDMA技术匹配后即可轻松搞定距离与扩展这两大难题。

记者:我们坚信面向SSD以及PCIe卡等其它形式闪存模块的NVMe连接目前已经成为客观层面的业界标准。而Fabric扩展则使得服务器群组以及各类存储记忆体配置之间的共享式闪存存储成为可能。这一切将为我们带来服务器DRAM与共享式闪存存储之间更为出色的内存级传输速度,并彻底取代以往数据传输速度较慢的服务器内基于磁盘的IO堆栈。

速度,这一切都是为了速度;降低数据访问延迟将成为存储行业永恒的主题。