郑纬民院士出席数据与存储峰会:实现数据与存储系统从“0”到“1”的创新

2021年11月23日,由百易传媒(DoIT)主办,中国计算机学会信息存储专委会、中国计算机行业协会信息存储与安全专委会、华中科技大学武汉光电国家实验室、固态技术协会(JEDEC ) 等机构支持,主题为“数据觉醒”的“2021中国数据与存储峰会”召开。

这是中国数据与存储峰会连续16年在北京成功举办后,首次在线上举行。峰会为期三天,著名院士、专家教授和领导厂商、行业用户发表主题演讲,首日吸引产业界专业人士10万人次观看、互动。

中国工程院院士、清华大学计算机科学与技术系教授郑纬民应邀为峰会发表致辞,介绍了存储技术应用现状、发展趋势以及清华大学创新的成就。以下内容根据速记整理,未经本人审定。

中国工程院院士、清华大学计算机科学与技术系教授郑纬民

尊敬的各位领导,各位专家、朋友们,大家好,我是清华大学郑纬民,非常高兴来参加“2021中国数据与存储峰会”。

大数据诞生以来,各种各样的数据越来越多,数字化、数字经济时代,数据按照指数形式增加,这么多数据都放在存储器里,对存储器提出了越来越高的要求,如功能强、容量大、性能好、安全,还有很重要一点:自主可控。

去年,习总书记跟科学家座谈会上谈到,要尽可能地做从0到1的创新。我一直在想,我们存储系统,我们数字这方面能不能做从0~1的创新?

我想应该是可以的。下面举两个例子来说说这件事。

第一个,我们做了一个大容量、高可靠、自维护的存储系统。大家都都知道,硬盘它有一定的出错率,也有可能要坏掉,但是硬盘坏了以后呢,如何挽救其中存储的数据不要丢,现在常用的两种办法。

一是把文件往磁盘写的时候,写三份在不同盘里,因此,有一份坏了,还有两份是好的,我们说多备份技术。它的缺点是要多买200%的硬盘。

还有一个常用办法呢,就磁盘阵列,如RAID 5,RAID 6。

以RAID 5为例,一个文件来了后记在五块磁盘里,其中四块记数据,还一块记校验码,一块盘坏了以后呢,能把数据恢复出来。

但是有两个不好的地方。一是磁盘坏了,得赶快把这个坏盘拔出来,换一块新盘,如果忘了,有可能第二块盘故障后那就数据全丢了。

第二个呢,新盘存进去以后要做数据的恢复,这个过程非常慢。

针对两种常用办法,我们基于纠删码的高可靠采取了新的对策。

举个简单例子。

一个文件来了,我把它分成32段,每段放在一个磁盘里头,往磁盘写的时候呢同时做运算,把纠删码算出来记到16块硬盘里头,最后32块是实际的真正的数据,还有16块是纠删码,一共48个盘,这个系统允许小于等于16块盘坏的情况下自动把数据呢恢复出来。我们就是基于这个原理做了一个存储器,一个高可靠、自维护的一个存储器。

什么意思呢?就是说,这个系统大概是一个大冰箱这么大,42U的里边192块硬盘,我们要在生命周期内,就是五年,或者六年或者七年,这个系统可能要淘汰了,磁盘本身是有可能要出错的,但是里面存的数据肯定不会丢,我们觉得高可靠又大容量(大概1.5个PB),又做到了自维护,数据不会丢。

我们采取两个办法实现上述目标。

一是把计算的方程尽可能简单,那计算量就小了,另外一个,真正算的时候,我们把多核的、并行的、分布的、流水的手段都把它采用上。

第二个例子。

我们最近做了一个分布式文件系统,是为鹏城实验室“鹏城云脑”这台机器做的,参加“世界IO 500比赛”的时候,去年6月我们得到冠军,去年11月份我们也是冠军,今年11月又得到冠军,连续三次得到冠军,而且,我们第一名的成绩比第二名要快很多很多。

你可能要问了,你的文件系统有什么最大的特点?大概有三个关键技术。

第一个,过去的文件系统有很多元数据,元数据服务器只有一台,或者两台,因此要成为瓶颈了。我们取消所有的服务器,既是存数据又存元数据,因此这么多机器都是元数据服务器了,瓶颈就没有了。

第二个呢,过去大家用的分布式文件系统呢就调用操作系统,一调用,要进到内部去了,要进保护现场,因此开销比较大,我们这一次就不调用操作系统,因此性能有很大的提高。

第三个,我们说有Cache,Cache的好处是下一次访问的时候不要再到硬盘去取数据,但是它的问题是要做一致性,因此开销很大,我们这次取消Cache,直接做。

这三个关键技术使得我们分布的文件系统性能非常高,我相信,可能最近一两年我们一直会是冠军。

因此我在想,我们在数据跟存储系统方面,我们能够做从0~1的创新工作,希望我们做数据和存储方面的人一起努力做从0~1的工作,做到先进的系统出来。

最后呢,再次预祝我们“2021中国数据与存储峰会”圆满举行,谢谢大家!

(根据速记整理,未经本人审定)