程菊生:华为OceanStor 9000大数据存储系统

2014年12月2日DOIT编辑北京报道:2014(第十届)中国存储峰会今天在北京召开,大会以“掌控数据经济,重塑商业价值”为主题,诠释在IT走向DT时代下,如何通过数据重塑商业价值。大会共邀请了 16位顶尖第三方嘉宾,数十位专家,带来了35场前瞻性演讲+2场圆桌讨论,并首次推出硅谷创始人访谈和存储夜宴活动!

在当天下午的大数据分论坛上,来自华为的存储产品线分布式存储技术专家程菊生为我们精彩解读《华为OceanStor 9000大数据存储系统》。

以下是演讲实录:

程菊生:大家下午好!很高兴今天有机会跟大家一块儿交流一下华为OceanStor 9000这款产品,我叫程菊生,主要是做分布式文件系统,包括分布式存储。目前OceanStor这个产品,我在里面担任架构师,我们团队在这一块经过很大的努力把这个产品做出来了。今天跟大家分享一下经验和技术。

今天主要从三个方面来讲。第一、讲大数据对我们带来的一些挑战。第二、华为的应对之道。第三、我们这个产品应用实践的一些情况。

第一部分,刚才前面嘉宾也讲到,目前大数据的来临大家都在说,从1960年的大机出现,到后面的个人电脑、互联网,包括到移动互联,以及最近提出的大数据。一个大规模生产、分享和应用数据的时代正在开启。我们可以拿一个简单的例子看一看,这里是我们实际的项目。在基因数据这一块,我们有一个项目实际上是跟基因相关的东西。基因数据基本上被分成四个部分。第一、做基因测序。第二、基因分析。第三、数据共享。第四、数据保存。从这四块看,它的每一块都跟数据的存储、分析、共享关系都非常密切。像测序整个数据导入本身对后端的系统要求非常高。数据存好之后,需要对数据做一些分析,这些分析他们也是对后头计算设备和存储设备有很高要求。共享这一块,一个数据不光是一家公司用,可能需要有很多地方共同用。所以,它是一个共享的问题。测试这一块,包括像基因数据,它的量非常大,整个用传统的阵列,或者一个存储形式它是没有办法来保证我们大规模并行或者海量存储的一种方案。

在基因测序里面,我们可以看到,从它的测序大共享,到数据分析,这个数据从它生产出来,再到模板把数据共享出去,到后面的分享,会经过多次的转换,到本地、到存储设备,然后分析这些设备。如果用传统的方式,就会发现存在多次数据的拷贝,这样对数据空间是个浪费,同时对时间、人力包括成本都是浪费非常大。所以,我们想有没有一种产品,它能够同时解决这个问题?就是计算、存储和分析我们如何融合在一起?

另外,在其他行业也面临类似的问题。像我们碰见的一些项目里面,在卫星测绘,媒资行业,包括能源勘探和金融证券这些行业,他们的数据需要一些存储、分析和共享,同样面临这些困境。中间是海量的数据,有一个数据源,源里面会有数据的共享和数据的存储、数据的分析。基于这种挑战,我们看看华为是怎么来应对这种挑战,怎么打破常规,然后不破不立。

首先,我们这个产品叫OceanStor 9000,它是专门为大数据而设计的一个海量存储系统。它要解决的问题就是在计算这一块的一些分散的问题。像生产、共享和分析这一块,知道产品之后,我们可以把生产,把共享的一些数据,还有分析很好的进行一些融合。怎么融合的呢?这张图是基于高效全融合系统的架构图,最上面是应用层,应用层面向的分为非常广,像媒体,包括视频监控,高性能计算,像网盘,另外还有一些其他的互联网的应用,也都可以。然后,在应用和数据处理之间,这是一个接口上,在这个接口层里面就非常丰富了。有传统的NFS协议,另外还会支持当前比较热门的像HDFS这些接口,还会有一些像亚马逊的S3这样的接口,同时还会支持数据库的一些接口。

在接口之下,整个数据处理层,数据处理层基本上分这么几个核心的部分。第一、有一套分布式服务系统,我们称为WuShanFS分布式系统,还有分布式数据库,我们称之为WuShanSQL,还有一些企业级Hadoop系统,我们称之为Fuslonlnslght系统。另外还有我们华为自己研发的X86的服务器,包括存储服务器,这是整个系统架构。

基于这一块我们提出两个理念。就是右上角提的两个,一个是融合,一个是扩展。融合会在存储分析这一块,第一是存储和分析的融合。左边第一部分讲传统的数据分析,右边讲用了我们的系统之后,我们自己怎么来解决这个传统分析的流程。在左边会发现,整个数据的生产、共享和分析有一个篡写的环节,但是到右边这一块,数据的生产、共享、分析完全可以用一套存储资源进行管理和备份。这样我不需要进行一些额外的操作,在同一套系统完成操作。这里面更重要的是它还会提升我们的时间,包括数据的迁移、搬迁,消耗的时间会非常长。

第二块关于存储和归档的融合。一般来说存储和归档在传统行业是分开的。就是我会有一套传统的产品,它是一些阵列的产品。另外还会有一些外植的归档设备,所以做归档的时候,它会把存储设备迁移到归档设备,进行归档的时候,由于要做归档,包括要做它的权限,还有可行性的一些检查,所以,你一定要做一些外置的检索还有相关的一些工作。这样一来其实是两套独立的产品,但是现在其实有了一些新的解决方案,就是我同一套设备里面,可以把这两个东西完全的融合起来。就是在一套存储系统里,我们会有专门的一个在线的存储区,我们把它称之为Online的存储区。另外还有一块归档区,这两个区其实在完整的一套设备里面。我们会把设备跟它隔离层不同的区,不同的区分成不同的策略,包括数据冗余的一些策略。这样做存储的时候,可以直接到存储区进行数据存储。如果我需要归档的时候,只要在整个小资源范围内能够进行一些新的归档,包括简单的一些数据的设置,包括访问等等。

第三个融合讲的是多种数据类型的融合,传统的数据为了适应不同的数据类型,会从最底层进行抽象,会把整个数据分成文件的部分,就成为分析化的部分,还会称为一个数据化的部分,我们称为结构化数据和非结构化数据。这两部分其实是用了不同的设备进行做的。像数据库这一块,我们用一些阵列的设备,对外安装一些数据库,然后提供SQL查询的接口。如果是文件这一块,它会用标准的NFS设备,对外提供数据的一些共享,再进行数据的分析、存储,这是讲的传统的分析。

但是,随着技术的发展,开始是把结构化数据和非结构化数据融合在一起。就是整套设备里面有这么一套存储的资源池,这个资源池里面本身会分成非结构化,还有一块是结构化的设备。我们对外会同时提供一些NFS接口和一些数据库的接口,还会包括一些BI的接口,这样系统可以完成文件、对象,包括块的存储,做到一些统一的融合。所以,这里我们讲的是多种数据类型的融合。

第二部分,关于扩展。整个产品的扩展是从三个纬度,三个层次进行扩展。首先,是协议层这一块进行了拓展。我们对外是用标准的NFS这些协议,但是这些协议本身有一些扩展性的问题,还会包括一些热点问题。所以,我们团队自己把享用的一些协议做了一些修改,然后解决一些它的热点问题,包括它一些负载均衡的问题。这样整套系统可以对外提供上千,甚至上万个客户端同时进行访问,在后续的设备里面,我们会在系统里面支持十万个节点,甚至更多的节点的访问。

中间是文件系统层和分布式数据库层,会把整个系统,用分布式系统连接起来,实现很好的横向的扩展。目前像这种技术在业界也非常多,像Hadoop等等。我们采用是我们自己的想法,我们会把整个单独的一套系统扩展成完全的一套分布式系统,每一套分布式系统用一些指数切割的方法实现整个系统海量的管理。在最底层是分布式存储层,这个存储层我们在硬件和数据存储这一块,其实之下是全部的DS节点,是全互联IP的方式,然后采用分布式的架构,同时会支持一些盘。这里面我们会对节点的加入,删除做优化,这样我们把很多节点可以构成一个资源池,然后它对外提供很好的存储能力。

扩展这一块有一个比较好的能力就是性能。为什么我们提扩展,就是传统的存储设备单个性能还是比较不错,因为它走的是光纤这一块,单台机器的设备性能非常强。但是,如果它把多台设备放在一起,如果构成多系统之后,它的设备反而不行。这就是为什么说开始要用到像百度、阿里,他们开始用大的一些设备构建它的分布式系统。目的一个是除了简单使用,另外还有性能各方面的考虑。

这边我们给我们系统做新的测试的时候,我们的一个测试指标,从数字上看,我们当时测出来500万的OPS性能,这个性能比上一次冠军整整要高出3倍以上。据说他们之前测出来的性能在150万左右的性能值,我们测出来性能值能达到500多万,这个数字还是非常惊人。

成功的背后其实也有英特尔和华为存储战略合作的结果。这里面这张图片,是我们一个实物的图片,是在成都华为研究所机房里面,我们专门有一个实验室所拍出来的。整个存储规模有40P,总共有288个机电构成,这个是当前最大的一场存储系统,我们说是这个展现的,其他的存储设备认为我可能达到20P,或者40P都有理论值。我们这个是通过实物,实实在在把它构建出来的。这里面,英特尔帮我们做了大的工作,设计是我们自己做的工作。英特尔在处理器这一块,在加速,包括大数据,还有横向扩容他们帮我们做了很多。另外在它的CPU,包括一些网卡类也做了很多工作。这张图是我们华为跟英特尔合作的这么一个发布会。

关于扩展这一块的好处,就是有了扩展之后,本身这个产品能够做到按需扩展,同时也按需购买。随着业务的发展,一开始可能不需要那么多设备,完全以定制化的形式买一部分东西。但是,随着后续产品,包括公司的扩大,我完全可以把它的规模扩展上去。这就是说传统的一些设备,他们往往很难做到比较好的扩展性。像分布式系统,这是它天然的一个优势。

另外,在管理方面,我们有几个特点,我们称为叫1、2、3、4。“1”就是有一套完整的管理系统,有一套进行管理。“2”指两种资源系统,这种资源系统包括物理资源,还有逻辑资源。“3”,支持三类管理终端,包括PC、Phone、Pad。“4”就是4种告警方式,包括邮件、声音、短信、指示灯的告警。目前来说我们基本上一分钟就可以上线,马上就可以使用。这是整个管理便捷这一块。

整个OceanStor 9000这款产品有几个关键的数据。首先我们的产品按照类型可以分成三大类。第一类,我们把它成为叫分析节点。第二类高性能节点。第三类大容量节点。这是针对不同的市场,有的市场可能存储流量不是那么大,但是我可能需要性能特别强。另外,可能是对性能要求偏弱,但是对存储容量要求比较大。所以,我们会针对不同的情况会分几类进行区分。

这里面有几个数据是我们在业界提出来的。第一、关于OPS性能这一块,目前我们在500万的OPS。第二、整个吞吐量能达到200GB总的这么一个情况。第三、容量,目前实际值已经达到40PB,我们现在在构建下一个版本,下一个版本我们计划要到几百P以上的规模。

我们这些产品有哪些具体的应用?华为OceanStor 9000的应用场景有这些,因为是根据我们目前拿到项目的情况把它列了一下,但是它也不完全取决于这些。它会包括在卫星测绘,在气象科学这一块,包括能源勘探,航空,包括基因测序,教育,还有公共事业和媒体。其中像气象这一块,我们在国内气象类的项目里面,有几个标成功中标,目前项目也在实施。在基因测序这一块,也跟一些国内非常知名的基因公司做相应的合作,他们有我们相应的设备。在媒体这一块,跟比较有名的一些像央视一些大的媒资企业我们也在进行合作。

最后总结一下,我们整个OceanStor 9000的情况。整个华为OceanStor 9000,主要的问题是化解CIO存储目前的一些困境,然后解决大数据带来的一些挑战的问题。然后这几个数据,刚刚我们说的就是它主要的特点就是如何扩展高效、简单。然后,它有几个数字,500万OPS,200GB/S寸土两,288个节点,40PB的存储孔两,谢谢各位!

2014年12月2日DOIT编辑北京报道:2014(第十届)中国存储峰会今天在北京召开,大会以“掌控数据经济,重塑商业价值”为主题,诠释在IT走向DT时代下,如何通过数据重塑商业价值。大会共邀请了 16位顶尖第三方嘉宾,数十位专家,带来了35场前瞻性演讲+2场圆桌讨论,并首次推出硅谷创始人访谈和存储夜宴活动!

在当天下午的大数据分论坛上,来自华为的存储产品线分布式存储技术专家程菊生为我们精彩解读《华为OceanStor 9000大数据存储系统》。

以下是演讲实录:

程菊生:大家下午好!很高兴今天有机会跟大家一块儿交流一下华为OceanStor 9000这款产品,我叫程菊生,主要是做分布式文件系统,包括分布式存储。目前OceanStor这个产品,我在里面担任架构师,我们团队在这一块经过很大的努力把这个产品做出来了。今天跟大家分享一下经验和技术。

今天主要从三个方面来讲。第一、讲大数据对我们带来的一些挑战。第二、华为的应对之道。第三、我们这个产品应用实践的一些情况。

第一部分,刚才前面嘉宾也讲到,目前大数据的来临大家都在说,从1960年的大机出现,到后面的个人电脑、互联网,包括到移动互联,以及最近提出的大数据。一个大规模生产、分享和应用数据的时代正在开启。我们可以拿一个简单的例子看一看,这里是我们实际的项目。在基因数据这一块,我们有一个项目实际上是跟基因相关的东西。基因数据基本上被分成四个部分。第一、做基因测序。第二、基因分析。第三、数据共享。第四、数据保存。从这四块看,它的每一块都跟数据的存储、分析、共享关系都非常密切。像测序整个数据导入本身对后端的系统要求非常高。数据存好之后,需要对数据做一些分析,这些分析他们也是对后头计算设备和存储设备有很高要求。共享这一块,一个数据不光是一家公司用,可能需要有很多地方共同用。所以,它是一个共享的问题。测试这一块,包括像基因数据,它的量非常大,整个用传统的阵列,或者一个存储形式它是没有办法来保证我们大规模并行或者海量存储的一种方案。

在基因测序里面,我们可以看到,从它的测序大共享,到数据分析,这个数据从它生产出来,再到模板把数据共享出去,到后面的分享,会经过多次的转换,到本地、到存储设备,然后分析这些设备。如果用传统的方式,就会发现存在多次数据的拷贝,这样对数据空间是个浪费,同时对时间、人力包括成本都是浪费非常大。所以,我们想有没有一种产品,它能够同时解决这个问题?就是计算、存储和分析我们如何融合在一起?

另外,在其他行业也面临类似的问题。像我们碰见的一些项目里面,在卫星测绘,媒资行业,包括能源勘探和金融证券这些行业,他们的数据需要一些存储、分析和共享,同样面临这些困境。中间是海量的数据,有一个数据源,源里面会有数据的共享和数据的存储、数据的分析。基于这种挑战,我们看看华为是怎么来应对这种挑战,怎么打破常规,然后不破不立。

首先,我们这个产品叫OceanStor 9000,它是专门为大数据而设计的一个海量存储系统。它要解决的问题就是在计算这一块的一些分散的问题。像生产、共享和分析这一块,知道产品之后,我们可以把生产,把共享的一些数据,还有分析很好的进行一些融合。怎么融合的呢?这张图是基于高效全融合系统的架构图,最上面是应用层,应用层面向的分为非常广,像媒体,包括视频监控,高性能计算,像网盘,另外还有一些其他的互联网的应用,也都可以。然后,在应用和数据处理之间,这是一个接口上,在这个接口层里面就非常丰富了。有传统的NFS协议,另外还会支持当前比较热门的像HDFS这些接口,还会有一些像亚马逊的S3这样的接口,同时还会支持数据库的一些接口。

在接口之下,整个数据处理层,数据处理层基本上分这么几个核心的部分。第一、有一套分布式服务系统,我们称为WuShanFS分布式系统,还有分布式数据库,我们称之为WuShanSQL,还有一些企业级Hadoop系统,我们称之为Fuslonlnslght系统。另外还有我们华为自己研发的X86的服务器,包括存储服务器,这是整个系统架构。

基于这一块我们提出两个理念。就是右上角提的两个,一个是融合,一个是扩展。融合会在存储分析这一块,第一是存储和分析的融合。左边第一部分讲传统的数据分析,右边讲用了我们的系统之后,我们自己怎么来解决这个传统分析的流程。在左边会发现,整个数据的生产、共享和分析有一个篡写的环节,但是到右边这一块,数据的生产、共享、分析完全可以用一套存储资源进行管理和备份。这样我不需要进行一些额外的操作,在同一套系统完成操作。这里面更重要的是它还会提升我们的时间,包括数据的迁移、搬迁,消耗的时间会非常长。

第二块关于存储和归档的融合。一般来说存储和归档在传统行业是分开的。就是我会有一套传统的产品,它是一些阵列的产品。另外还会有一些外植的归档设备,所以做归档的时候,它会把存储设备迁移到归档设备,进行归档的时候,由于要做归档,包括要做它的权限,还有可行性的一些检查,所以,你一定要做一些外置的检索还有相关的一些工作。这样一来其实是两套独立的产品,但是现在其实有了一些新的解决方案,就是我同一套设备里面,可以把这两个东西完全的融合起来。就是在一套存储系统里,我们会有专门的一个在线的存储区,我们把它称之为Online的存储区。另外还有一块归档区,这两个区其实在完整的一套设备里面。我们会把设备跟它隔离层不同的区,不同的区分成不同的策略,包括数据冗余的一些策略。这样做存储的时候,可以直接到存储区进行数据存储。如果我需要归档的时候,只要在整个小资源范围内能够进行一些新的归档,包括简单的一些数据的设置,包括访问等等。

第三个融合讲的是多种数据类型的融合,传统的数据为了适应不同的数据类型,会从最底层进行抽象,会把整个数据分成文件的部分,就成为分析化的部分,还会称为一个数据化的部分,我们称为结构化数据和非结构化数据。这两部分其实是用了不同的设备进行做的。像数据库这一块,我们用一些阵列的设备,对外安装一些数据库,然后提供SQL查询的接口。如果是文件这一块,它会用标准的NFS设备,对外提供数据的一些共享,再进行数据的分析、存储,这是讲的传统的分析。

但是,随着技术的发展,开始是把结构化数据和非结构化数据融合在一起。就是整套设备里面有这么一套存储的资源池,这个资源池里面本身会分成非结构化,还有一块是结构化的设备。我们对外会同时提供一些NFS接口和一些数据库的接口,还会包括一些BI的接口,这样系统可以完成文件、对象,包括块的存储,做到一些统一的融合。所以,这里我们讲的是多种数据类型的融合。

第二部分,关于扩展。整个产品的扩展是从三个纬度,三个层次进行扩展。首先,是协议层这一块进行了拓展。我们对外是用标准的NFS这些协议,但是这些协议本身有一些扩展性的问题,还会包括一些热点问题。所以,我们团队自己把享用的一些协议做了一些修改,然后解决一些它的热点问题,包括它一些负载均衡的问题。这样整套系统可以对外提供上千,甚至上万个客户端同时进行访问,在后续的设备里面,我们会在系统里面支持十万个节点,甚至更多的节点的访问。

中间是文件系统层和分布式数据库层,会把整个系统,用分布式系统连接起来,实现很好的横向的扩展。目前像这种技术在业界也非常多,像Hadoop等等。我们采用是我们自己的想法,我们会把整个单独的一套系统扩展成完全的一套分布式系统,每一套分布式系统用一些指数切割的方法实现整个系统海量的管理。在最底层是分布式存储层,这个存储层我们在硬件和数据存储这一块,其实之下是全部的DS节点,是全互联IP的方式,然后采用分布式的架构,同时会支持一些盘。这里面我们会对节点的加入,删除做优化,这样我们把很多节点可以构成一个资源池,然后它对外提供很好的存储能力。

扩展这一块有一个比较好的能力就是性能。为什么我们提扩展,就是传统的存储设备单个性能还是比较不错,因为它走的是光纤这一块,单台机器的设备性能非常强。但是,如果它把多台设备放在一起,如果构成多系统之后,它的设备反而不行。这就是为什么说开始要用到像百度、阿里,他们开始用大的一些设备构建它的分布式系统。目的一个是除了简单使用,另外还有性能各方面的考虑。

这边我们给我们系统做新的测试的时候,我们的一个测试指标,从数字上看,我们当时测出来500万的OPS性能,这个性能比上一次冠军整整要高出3倍以上。据说他们之前测出来的性能在150万左右的性能值,我们测出来性能值能达到500多万,这个数字还是非常惊人。

成功的背后其实也有英特尔和华为存储战略合作的结果。这里面这张图片,是我们一个实物的图片,是在成都华为研究所机房里面,我们专门有一个实验室所拍出来的。整个存储规模有40P,总共有288个机电构成,这个是当前最大的一场存储系统,我们说是这个展现的,其他的存储设备认为我可能达到20P,或者40P都有理论值。我们这个是通过实物,实实在在把它构建出来的。这里面,英特尔帮我们做了大的工作,设计是我们自己做的工作。英特尔在处理器这一块,在加速,包括大数据,还有横向扩容他们帮我们做了很多。另外在它的CPU,包括一些网卡类也做了很多工作。这张图是我们华为跟英特尔合作的这么一个发布会。

关于扩展这一块的好处,就是有了扩展之后,本身这个产品能够做到按需扩展,同时也按需购买。随着业务的发展,一开始可能不需要那么多设备,完全以定制化的形式买一部分东西。但是,随着后续产品,包括公司的扩大,我完全可以把它的规模扩展上去。这就是说传统的一些设备,他们往往很难做到比较好的扩展性。像分布式系统,这是它天然的一个优势。

另外,在管理方面,我们有几个特点,我们称为叫1、2、3、4。“1”就是有一套完整的管理系统,有一套进行管理。“2”指两种资源系统,这种资源系统包括物理资源,还有逻辑资源。“3”,支持三类管理终端,包括PC、Phone、Pad。“4”就是4种告警方式,包括邮件、声音、短信、指示灯的告警。目前来说我们基本上一分钟就可以上线,马上就可以使用。这是整个管理便捷这一块。

整个OceanStor 9000这款产品有几个关键的数据。首先我们的产品按照类型可以分成三大类。第一类,我们把它成为叫分析节点。第二类高性能节点。第三类大容量节点。这是针对不同的市场,有的市场可能存储流量不是那么大,但是我可能需要性能特别强。另外,可能是对性能要求偏弱,但是对存储容量要求比较大。所以,我们会针对不同的情况会分几类进行区分。

这里面有几个数据是我们在业界提出来的。第一、关于OPS性能这一块,目前我们在500万的OPS。第二、整个吞吐量能达到200GB总的这么一个情况。第三、容量,目前实际值已经达到40PB,我们现在在构建下一个版本,下一个版本我们计划要到几百P以上的规模。

我们这些产品有哪些具体的应用?华为OceanStor 9000的应用场景有这些,因为是根据我们目前拿到项目的情况把它列了一下,但是它也不完全取决于这些。它会包括在卫星测绘,在气象科学这一块,包括能源勘探,航空,包括基因测序,教育,还有公共事业和媒体。其中像气象这一块,我们在国内气象类的项目里面,有几个标成功中标,目前项目也在实施。在基因测序这一块,也跟一些国内非常知名的基因公司做相应的合作,他们有我们相应的设备。在媒体这一块,跟比较有名的一些像央视一些大的媒资企业我们也在进行合作。

最后总结一下,我们整个OceanStor 9000的情况。整个华为OceanStor 9000,主要的问题是化解CIO存储目前的一些困境,然后解决大数据带来的一些挑战的问题。然后这几个数据,刚刚我们说的就是它主要的特点就是如何扩展高效、简单。然后,它有几个数字,500万OPS,200GB/S寸土两,288个节点,40PB的存储孔两,谢谢各位!