在2023云栖大会上,阿里巴巴旗下平头哥半导体发布首颗SSD主控芯片-镇岳510。在11月29日举行的2023中国数据与存储峰会上, 平头哥半导体产品总监周冠锋在题为“做智能化时代更好的存储底座”演讲中,详细介绍了镇岳510的技术优势和特性。
峰会期间,DOIT总编宋家雨特邀周冠锋进行了专访,结合镇岳510应用前景进行畅谈。
宋家雨:请简单帮我们介绍一下镇岳510这款产品的情况。
周冠锋:镇岳510是平头哥开发的一款高性能企业级SSD主控芯片或称SSD控制器,它支持PCIe 5.0接口、DDR 5.0技术,内置高性能的RISC-V架构玄铁R910多核CPU,可以支持主流的TLC、QLC存储颗粒,具有极高IOPS性能(3400K IOPS),以及超低时延(4us)。适用于AI计算、大数据分析、在线交易、高性能数据库、分布式存储等业务场景。
镇岳510在2022年底一次性流片成功,2023年回片之后,通过了内部大量的性能、功能、可靠性和兼容性等测试,目前已经达到了量产程度。
宋家雨:在行业内,4us也是非常优异的性能表现,平头哥对此做了哪些优化,最终实现了这样表现?
周冠锋:时延是SSD从收到命令到返回命令响应的耗时。在分布式计算中,为了提高并发能力,业务请求通常会被拆分为多笔子请求分散到众多SSD并发执行,并对众多的执行结果进行汇聚得到最终结果。显然,SSD的处理时延越低,整个业务的总体性能越高。所以主控如果可以实现超低的时延,就可以给应用带来更好的体验。
镇岳510内置了我们自主创新的IO自动化处理机制。对于写入操作(IO)的整个流程,从主机构建提交IO命令(SQE),到SSD解析命令、进行命令切片,到SSD执行数据DMA,再到SSD启动FTL表项操作,SSD构建并返回命令响应(CQE),这一系列的操作步骤我们均实现了全面的硬件自动化。这种自动化程度意味着如果硬件执行的延迟足够低,则IO命令的执行时间理论上可以非常接近PCIe链路的延迟。通过这些自动化机制,镇岳510最终实现了4us的IO执行时延,这个数字比现在业界SSD的指标降低了30%以上。
宋家雨:从产品实践的角度,除了优秀的时延,镇岳510的差错率是否可以满足需求?
周冠锋:完全可以满足需求。
SSD的首要职责就是数据存储的可靠性,而衡量数据存储可靠性的一个重要指标,就是UBER,也就是 Uncorrectable Bit Error Rate,不可纠误码率。它表示的是从SSD读取数据时,会有多大的概率出现数据无法纠错,这个指标,越小越好。行业内企业级SSD的UBER指标为10^-17,也即每读取10亿亿笔数据,可能会有一笔数据出错。
而镇岳510通过自研的LDPC算法,并通过对LDPC译码矩阵的优化,最大程度的去除了译码矩阵中的环结构,最终把LDPC ErrorFloor这个关键指标,优化了一个数量级。仅仅依靠LDPC纠错算法,就可以达到10的负17次方的UBER,再结合RAID算法,就可以达到10的负18次方的水平,相当于百亿亿笔数据才可能有一笔数据出错。所以说,完全可以满足各种业务场景的可靠性要求。
宋家雨:镇岳510有没有适配不同品牌的NAND颗粒?
周冠锋:在镇岳510芯片里面,我们内置了非常灵活的可编程NAND控制器和矩阵灵活的LDPC,所以针对不同品牌的NAND颗粒,只需要在固件上进行调整,就可以适配不同的闪存颗粒,而镇岳510芯片本身不用做任何调整和修改。
宋家雨:镇岳510这样一款产品也会用在消费类产品市场吗?
周冠锋:镇岳510聚焦在企业级SSD市场,可以用在数据中心,也可以用在企业自建IT设备的场景,但消费者场景是另外一个赛道,并不是这个芯片的适用场景。
在企业级SSD场景中,镇岳510芯片已通过大量硬件兼容性测试,可以适配各种不同类型的服务器,在软件上可以适配各个版本的Linux、Windows,在业务上,适用于AI计算、大数据分析、在线业务交易、分布式存储等通用场景。可以说,凡是需要大容量、或高IO性能的场景,镇岳510均可以胜任。
宋家雨:为什么平头哥能够在这么短时间内做出如此优秀的产品?
周冠锋:大家知道,芯片行业是一个技术密集型行业,平头哥内部有非常完善的芯片的前后端设计团队、封装设计团队,还有非常富有经验的软件团队。可以胜任复杂大型芯片的全流程设计。
SSD主控芯片是一个芯片+算法+固件的集合体。平头哥SSD产品线有完整的芯片设计团队,算法设计、介质研究的团队,还有完善的固件团队,同时还有自研的IP和核心算法,所以有能力做出性能领先的、优秀的主控芯片。
宋家雨:这样一款产品的市场定位和市场布局是怎样的?
周冠锋:我们会聚焦在SSD主控芯片的研发与持续迭代,提供SSD主控芯片来支持客户打造优异的SSD产品。希望做智能化时代的存储基座,这是镇岳芯片的定位。