清华大学、厦门大学双料教授舒继武:云边协同的智能感存算融合系统

中国计算机学会存储专委会主任委员、厦门大学信息学院院长、清华大学舒继武教授在2021全球闪存峰会上发表主题演讲

现在进入万物互联的时代,产生很多的设备,像电子商务、智能终端、智能驾驶、社交网络等,这些智能应用的数据处理带来极大挑战——I/O访存不规则,数据规模越来越大,智能应用的模型规模庞大,高吞吐率实时更新,还有计算量要求很大,能耗比较低等。

我们面临的是一场云边挑战。所谓的边是所有产生数据的地方,大部分指产生和汇集数据的终端。边缘云、中心云等都可以称之为云。尤其是边端存在计算受限,存储受限,功耗受限,存储受限,通信受限。对云的要求是实时性、数据安全性及可靠性等。

而传统计算架构无法适应智能应用,会出现通信回路、可扩展性、计算效率等问题。

解决问题一般有两个思路:一个是怎么让云离边更近。在边上做多个边缘云,相对来说边缘的计算和存储能力就变得更快更强大,距离上也不一定传输到中心云或本地云,但由于功耗的要求,很难满足这种模式;

第二种思路是让边变得更强,让边缘的计算能力更强、通信更短、存储更快更大、功耗更低,我们经过尝试是可行的。

这里主要用了两种技术:1.近数据计算,2.感存算融合。

近数据计算不是一个很新的概念,特别是传统计算和存储分离的模式,越来越对运行现有应用感到吃力。

一些新器件(如RRAM)的诞生虽然能真正做到存储和计算的融合。但这种器件的形成还在发展中,要真正落地可能还要相当长的时间。

现在还有一种近存计算思路——把存储和计算距离拉近,传输路径变短,计算性能也就有所提升。

近数据智能存算融合系统

近数据智能存算融合系统现在也有近似的架构,像三星的SmartSSD,还有阿里的可计算存储系统,这种计算仅仅是对计算做加速,也就是现在各种GPU、XPU、TPU等。

但整个回路的I/O路径搬移没有太大变化,所以它只能支持存储软件的计算,如加密、视频,处理器等应用,不能支持通用智能应用,应用范围受限。

清华大学研发的近数据智能存算融合系统TH-iSSD,在性能参数方面,容量达到1TP,带宽从2GB可扩展至10GB,待机功耗低于5w,平均功耗低于50w,(约48w)能效比相对PowerPC提升了20倍以上,支持任意智能应用部署。

简要介绍一下清华TH-iSSD的思路原理。

感存算的过程——感知数据,然后存储数据之后提取进行计算。整个过程的I/O路径很长,延迟很高。

我们的思路是把它的感知接口和智能计算、存储控制器做在一个FPGA上,真正做到存算融合。这存在很多挑战,我们下一步是做一个ASIC芯片的定制,主要借助SoC的架构,利用RISC-V来提供轻量的CPU内核,之后用RoCC的可扩展接口,对计算和存储做融合,采用55nm制程达到带宽20GB的指标,能支持扩展性应用,性能达到10Tflops。

云边协同的智能感存算融合案例

以航天卫星,航空系统,气象预测为例:

1.卫星系统。面向航天卫星,基于高分辨率光学卫星图像的智能计算系统需要进行远程的数据传输,对计算峰值有要求;需要高带宽进行实时存储和传输,实时处理的高算力;数据流与计算流复杂,性能和可靠性低;SSD出现性能抖动,带宽和延迟不稳定。

对此我们重写了控制器。延迟不可控,那就重写控制器,和计算结合在一起,让延迟变得可控。去除存储硬件模块冗余,如存储管理处理器冗余,SSD控制器冗余以及计算存储模式(先存储再计算)带来的数据流冗余,真正做到感存算一体。

2.航空系统。厦门大学航空院研发的“海骑兵”无人机,主要做海上搜救、残骸搜索和巡检。最初海骑兵不能使用高清相机,飞行速度不能过快,以免数据来不及存储。

我们的解决方法是利用感存算融合缩短数据流程,从算法的角度来说去除冗余数据存储,使存储容量提升100倍,带宽提高40倍,延迟降低10倍,原来1秒钟仅能处理1/4张照片,现在1秒钟能处理25张照片,提高100倍。

3. 天气预报。 因为云边端数据在不停变化,是一个增量,我们在云边端芯片里面集成了在线增量学习的算法,做更好的预测,使得天气预报从小时级变到分钟级。

为此我们做了两款设备:近数据存储融合系统TH-SmallEdge,存储容量256GB,存储带宽200MB/s,2枚5号电池可以持续工作一个月。如果借助一些可再生能源,可以支持将近一年。

后来我们做了更小的TH-TinyEdge,容量为64GB,但2枚5号电池能持续工作一年,但没有推测和预测的功能。 目前系统已部署在海南省三沙市及附属岛礁气象预报。

研发这三款设备,我们最大的思想是用三个关键词:近数据、智能、感存算融合,这里的融合是真正把存储控制器和计算控制放到一起。

(以上基于2021年全球闪存峰会演讲整理,未经过本人审阅)