主持人:尊敬的各位来宾,欢迎在百忙之中莅临2012年中国存储峰会,我是主持人。今天下午本次分会场讨论主题是大数据创新,在今天下午我们请到五位业内专家分享他们的嘉宾。同时演讲结束后进行抽奖活动。请在演讲过程中调成静音状态,感谢你的参与。首先我们有请NetApp大中华区技术顾问张伟先生,演讲主题是大数据的ABCNetApp大数据解决方案。

张伟:今天跟高兴跟大家做一个交流,分析带宽和大容量的解决方案。今天主要的内容第一个大数据市场分析,第二个就是NetApp在大数据方面的方法和理念。我先介绍NetApp公司,是92年专门成立的做存储,NetApp是公司一直关注与存储的领域,目前来说是世界500强之一,比较专业的。NetApp提供产品组合,解决方案,另外一方面与业界领先的公司合作,提供广泛的解决方案。在全球来看目前来说有大概1万2千人左右,它在2000年左右进入中国,比如说在金融、电信、能源各行各业都是比较大的份额。在500强里面有77%的都是NetApp的客户,这是一个基本的情况。看看我们大数据的解决方案。

大数据怎么来的?为什么这两年引起大家的兴趣。我们看一下几张图案,一个是(英文)的图案。对于传统的邮件来说,每天我们发出多少邮件,每天有上千亿封的邮件会在全球传来传去。另外这几年新兴的博客,比过传统报纸一年的发行量。再有就是移动设备,就是说手机这种设备,它每天发送的信息量大家可以想象一下,每天实际上有43个PB级的数据量。再有就是比较著名的FaceBook每天更新量也是很大,这么大的数据量造成我们现在数据瓶颈的一个原因。

有人问我的信息化建设从90年代开始,为什么到现在突然大数据成为一个话题,一个难题,在企业内部可能会碰到,是怎么回事?大家可以看一下,计算一下。我在2010有100PB,经过6年大家1.1个GB,到2020年这个数据增长达到58倍这么一个水平,大家可以看一下前两年是11倍,再过四年增长到50倍,实际上数据的发展越来越快的。大家以前经常听一个故事,把一张报纸来回折叠,折叠10次,折叠30次多厚,折叠30多次以后超过喜马拉雅的高度。这是下面的图表是做的一个调查统计,社交网站,移动设备,对我们传统来说业务发展也是比较迅速的。以往的一些(英文)基础设施增长也很迅速。对于这么大的数据量我们是如何解决的,它会有什么问题,我们具体看一下?

在信息化建设的头10年,20世纪90年代,大家没有太注意这个问题,因为很多数据刚刚产生,这时候大家偏重于技术,应用的性能,这是我们IT部门多数把我们工作重心放在性能的解决,我们买一套存储。在21世纪初IT发展比较迅猛及我们数据量产生比较多,这时候对于IT部门我们并不是简单的关注性能,另外一个关注点是效率。我们如何能够以有效的手段实现事半功倍的效果,这是IT部门考虑的另外一个问题,效率。如何控制我的数据量增长没有那么大,如何提高我存储的服务器。

再有一个就是这10年,数据量比较大了,而成规模了,这种情况下,实际上对于IT部门来说就要注意我企业内部有没有产生大数据的业务,有没有这种难题,传统的架构能不能满意我业务的要求,这时候大数据应运而生了,这是我们IT部门,很多客户,很多服务厂商所要解决的一个问题。在这种架构下,大家希望提供一个灵活的架构,满足企业内部不同的需求。这个架构不会造成我操作的复杂性,这样一个考虑。

我不知道大家以前有没有统计现在传输的数据有多少,全球数据量达到了ZB这个级别,数据量非常大。随着社交网站,云计算,这种智能设备的发展,数据量还会迅猛的发展,据估算到2020年达到2B级,这个80%都是非结构化的数据,一篇一篇的文章。所以对于大数据业务来说,大数据的解决方案,我们如果解决好这一部分的业务,基本上满足我们自身内部的大数据的难题。

大数据是不是只是针对某一个客户某一个行业,就我们来看不是这样,大数据是贯彻到所有的行业,比如说金融行业,可能涉及到信用卡的分析统计,对反洗钱的监控。比如说交通做视频监控,监控流量,对医疗保健我们有很多数字医疗设备,我们X光都是数字化了,这样的大量信息也会造成数据的巨增。各行各业都有大数据的问题,事先没有意识到这一点,你构造数据中心可能会遇到未来的一些瓶颈。

我们刚才说以OOPD方面为中心,这个特点是大量的小数据,对性能IOPS要求比较高。这个作为企业的核心应用。随着大数据的发展,大家可以看一下对另外一个范畴,高带宽,高性能访问,这种分析业务,这时候也会产生很多的内容。包括以往我们说的支持分析,常常对数据有快速的分析,大数据推动了这个业务,总体核心业务向非结构化的主体业务发展。大数据会带来什么样的影响?

爆炸式的增本,第一个造成企业成本的增长,我需要存储、备份,我在五年之前听说过,那时候1T,那时候用一个备份软件,把数据备份过去,从主存储备份到磁带上,这时候发展几十TB,采取传统手段是不是有效,在数据丢失之后,是不是可以恢复,让我业务正常运行,这时候对于传统的备份手段,存储手段提出更高的要求。分析的数据还要写完磁盘上,这样大量的数据可能加载也变大。大家对这一块也都缺少一定的经验。

大数据来说它是如何打破原有的体系架构,我们90年代建立的体系架构,2000年初建立的体系架构,能不能满足我们大数据的要求。三方面看一下。第一大数据的复杂性。大数据以非结构化的为主,一般来说是实时性的,而且数据是相关的。在这种相关联的数据里面,加上我们以往的包括TB业务,如何加上新数据分析系统满足我数据分析要求,这是第一个难题。我们传统的架构不适用。

第二主体的速度,不管是视频这时候对于我存储的性能要求也比较高。传统的性能,传统的价格,能不能满足我性能的要求。

第三个就是量,就是体积。那么在这种情况下,数据量越来越大,如何能在线动态调整我的业务,我的空间,我的应用程序,使它能够不影响我的业务,并且我能找到一个空间调整,这是对于体积来说,也是对于我们传统架构的挑战。

NetApp希望从这几点解决上述的一个难题。第一个控制,我可以控制我这么大的数据量,增长缓慢一些,使我们效果提高一些,采取一些去重、压缩功能。并且能够突破到比传统理念概念更大的规模。传统上我们是16个G,NetApp有一些可以调整更大,几百G甚至是TB的级别。操作的复杂性。通过这种手段。

就来就是洞察力,数据在磁盘上不是作为一个死数据。NetApp提出了自己的解决方案ABC。A是分析,第二B是带宽的缩写,第三C是容量。NetApp希望从这三个角度提出我们解决方案。在一些场合我们发现基本上逃不过这三个模式。有些希望我们对大数据分析,有些是产生带宽。我们可以分别从这个角度混合使用。NetApp预测,这几年大数据量越来越大,2012年可能是1.7,到2016年高带宽大容量也会同比的增长。不管是对于这种方案供应商来说,都是比较大的机会。

那么NetApp在这块主要是提供了这几种解决方案,第二根据数据分析,极端大数据的高性能分析,把数据做出来找到带宽。在线网站一些运营的公司都在采用,雅虎、腾讯、淘宝,提供一些有价值的信息过决策者,让他们做出明确的决策。来自交管部门摄象头的数据,这需要把它存储在我的存储上。有(英文)、(英文)解决方案。

图片共享,这是一个传统的(英文),这个随着用户人数的增长,发展的越来越快。再一个就是企业内部的应用,我的监督系统,我去银行办理手续,身份证件,图片和监督,我们的保险都会在这种范畴。再一个我们的(英文)分布式的存储。(英文)是NetApp的一个软件,我们把通常把放在一个站点的数据,可以给它分散到几十个上百个的站点,这是一种架构,突破了我们传统上只有一个数据中心的范畴。保证你在北京访问一个数据,我飞到海南、美国还可以访问相同的数据,同时这个数据我会在后台放多份,这样不管我位置在哪里,我都可以放相同的数据,会有自动的后台同步,这样的解决方案。

这是NetApp目前的市场,传统是右边绿色我们叫做共享的架构,我可以采用虚拟化的架构和方案。对于大数据的范畴主要是ABC三个范畴,NetApp是另外一个系列的产品E系列的产品,满足ABC相关的解决方案,我们具体的来看一下。

传统上NetApp是有大型的产品线,提供更高效能,更多的(英文),提供集成的数据方案,我们数据在传统上我们需要(英文)软件进行备份,B2B的存储,也支持第三方的产商,比如说IBM的存储。

再有就是E系列,有高中低的产品,特点主要是高密度高性能的大容量,满足我ABC三个方面的要求。

在传统上基本上是这种架构,我们说的在90年代2000年初,就是用一个独特的存储池,满足某一类的存储业务,做一些比如说PSS分析,数据要相互矛盾,在整个的架构里面。大家知道几个GB的数据可以,达到TB级PB级,(英文)适合这种架构,我在存储端是一个灵活的结构,我数据空间可以进行动态生长。本身存在热点,这些热点也会在我的存储后台同步交换,整个的过程中前端业务不会中断的,这是NetApp的基本的勾勾。我们会采用(英文),提供光纤盘的性能,保证我增长空间没有那么快,NetApp新的架构提高存储的灵活率,满足前端的要求。通过存储效率的提高,降低管理成本,降低大数据增长的时候,对于我们成本的压力。

第一个对于数据分析来说,一个人的消费模式,我在某些地方发生了这种诈骗,我是否接受它这种请求,这是我们需要(英文)系统。对于传统的社交网站数据量非常大,这么大的数据量读出来分析把结果写回原来位置,这时候对存储来说压力比较大。NetApp一些传统的(英文),结构化的统计,建立了一些优势,比如说(英文)的合作,做大数据的解决方案。在一些新兴领域,我们传统的F系列也可以满足,同样可以提供这种解决方案。在数据分析这个领域,一般来看我们觉得结点可能不断的扩充,第一造成我流量的扩充,第二我希望这个性能同样得到发展。基本上我随着我结点的增加,性能也是这种线的增长,这时候不管你数据量初始多大,一开始比较小,伴随能量增长,这个性能也跟着提高。

NetApp自身也是利用了这个情况,我们有一个(英文)的网站,把我们存储信息的通到后台,检查硬盘是不是有问题。在这个架构下面,NetApp对做分析,某些磁盘是不是比较大,传统上这个数据量是240一条,在NetApp架构解决方案就可以得到一个结果,磁盘的分析。另外一个我们本身可能有问题鼓掌,NetApp通过方式去检测,NetApp做了这种解决方案以后,18个小时可能得到结果,这对于我们用户和我们自身来说都是有好处的。

再有一个刚才说的就是带宽,这块NetApp主要是从E系列,通过不同的产品提高高性能的要求,他可以提供6GB的带宽,3GB的带宽。通过这种方式基本上满足我对大容量高性能的要求,这块前端主要是有一个性能优化的文件系统,这个(英文)有联合的解决方案,是打包的解决方案,我们用可以直接拿它用。在这种高带宽E系列,满足我说的几个方面,对于传统视频的要求,对地震处理的要求,对媒体的高性能要求都可以得到解决。

卫星发图片,在无人驾驶飞机进行拍照时候,这个都可以很高效的放到我们的磁盘上。

最后一个就是我们内容,这块通过我们传统软件可以实现了,可以提供传统业务的满足,新兴的业务里面NetApp通过(英文)加我们E系列提供解决方案。在这个架构上面传统主要是提供文件的(英文)服务,要求有集成的数据保护,数据不需要在我网络上像蚂蚁搬家式的从这边搬到那边,这种对我们没有任何好处。在我们真正需要的时候,很可能没有办法要求。我需要几个TB这么大的空间,做业务的要求,比如说我医院医疗系统可能需要(不清)。我的其他的文件,企业内部的整个文件。下面是我们(英文)采用分布式的,自动到后台,分散到我都个软件,标准的云机构的解决方案,保证我数据自动的在任何一个地方都可以得到最新的访问。

我们的基础架构可以实现,可以保证我数据在里面上下移动,我一个磁盘不够用,可以把业务分担出去,把数据移来移去,把存储瓶颈移开。我某个有存储出问题需要维护怎么办?可以把业务迁徙到其他存储,修好之后再移回来。如果不能满足我存储,我可以增加几个存储,这时候我的增长是灵活动态,是这样一个结构。

我们看一下分布式的架构怎么办?这种(英文)的解决方案,把一个数据写到我的一个(英文)的软件控制的存储上,把它复制一份两份甚至更多份在后台运行,这个备份很难完成,某一个磁盘,某一个设备故障的话,会自动的请别的站点,标准的(英文)、(英文)都是支持。在这个架构里面我不需要做备份恢复,我在任何一个站点都可以得到我最新的数据。我任何的个人系统都可以通过这种方式访问。你需要数据把它复制到几个位置都可以的。我们通过这种方式解决大数据量非结构化的存储办公。管理的数据基本上达到几十个TB,都可以得到满足,基于对象的一种解决方案,我们通过文件名,找到对应的地址,这种文件的架构,大数据的结构有问题,访问效率太高了,像我们传统的(英文),(英文)数据库来说,缩影太大了,通过缩影访问数据性能也会下够,这个是存储(英文),通过这种(英文)这种方式,不用管你后台数据具体存在哪,(英文)就会快速访问这样的方法。

这种解决方案主要是用在私有云、公有云、数据媒体等这些上面。过一段时间它的图片发生失真的问题,他们并不是数据丢失,就是失真了,采用这种方式,可以自动后台做校验。这种解决方案在一些公司,提供(英文)的技术,比如说(英文)他采用的是NetApp,这种云服务,主要是面临医疗机构,常见的一些(英文),这时候企业内部的数据跟外部的这种云机构商务数据吻合在一起我企业内部的数据还是放在企业内部管理,对于不重要的数据可以放在云储藏里面去。把私有云公有云整合在一起,这种想法,这不是唯一的。这是跟比较有名的用户厂商合作,也提供这种的解决方案。NetApp相关的解决方案跟他私有云公有云合并,我数据关键数据在线数据放在我公司内部,对于长期数据,需要高性能运算的数据可以放到(英文),让它运运行,运行之后再给我传回来,是这样一个架构,目前来说也是全球提供这种解决方案。

我今天简单给大家介绍我NetApp针对大数据的解决方案,对于有些用户来说,可能碰到相关的问题,大家可以考虑一下,通过三个角度找到相对应的解决方案,满足我们的要求。通过这种方式可以降低我存储复杂性,提高效率,这些业务一方面是(英文)自己做的,另外一方面跟我们业内领先伙伴联合推出来的,给可以帮助用户提供解决模式,谢谢大家!

主持人:感谢朱海峰先生带来的精彩演讲,接下来我们有请富士通信息系统有限公司产品战略事业部总监邱弘先生,带来未雨绸缪,迎接大数据时代的演讲。

邱弘:大家下午好,很高兴能在这里和大家进行讨论大数据的相关话题,下面的时间我跟大家分享一下富士通在大数据方面的一些技术和经验,我今天演讲主题是未雨绸缪迎接大数据时代,对于像云计算大数据的这些话题,我想大家可能比较熟悉了。之所以咱们大家关注和讨论主要是它离我们越来越近,并且它的出现,对我们日常生活和企业的商业行为,造成深远的影响,所以它的到来需要我们对它有充分的认识和了解,做好相应的准备,逐步提升我们技术水平和能力。

大数据的出现和发展它将会使我们智能化社会成为一个驱动力。为什么这么说?就是我们现在日常的生活和行为,无时无刻都伴随着数据,我们所有行动都可以产生数据,关键我们是不是随时的关注它,把它的信息进行收集和处理分析。一旦我们把这些信息进行了收集分析之后,我们会从中发现对于我们有价值的数据和信息,从而可以指导我们日常生活的行为和行动。这方面我们可以举个简单的例子,我们上班的一个行为,早晨我们需要几点钟车门,坐什么交通工具,走什么路线,这些数据的产生都是因为我的行为所产生的。对于这些数据的收集分析之后,我们可以从中了解到,整个相关的行动的具体发生规律。这些信息的收集和沉淀可以作为一种知识反馈到我们社会。使我们能够在这个信息当中,给我们带来一些便利和高效。因此所以说我们企业如果对各种信息的收集整合分析处理,把它形成一种知识或者一种服务反馈到我们社会,这个循环过程当中,不断的循环和丰富,对于我们会形成一个智能化的社会提供一个非常好的驱动。

我们说大数据的到来,到底离我们有多远?或者到了什么程度?这里有两张图是ABC统计数据报告。我们2012年我们数据量达到了2.7个ZB,一个ZB相当于10的6次方的PB。这个数据量增长是一个爆炸式的增长,数据量非常巨大,我们原先处理的数据都是在GB等。这样相应我们在数据处理技术和服务方面,在未来三年将近有40%的增长。因为这个成长空间是相当巨大的。通过技术手段,通过数据大数据的处理进行服务,需要我们不断的创新。我们谈到大数据需要对它认识和了解,作为大数据到底有什么特征?什么叫大数据?就是说能够从经济高效,从大容量、结构当中获取价值,产生新的价值。大数据可以分为四个V的特征。这个大家都理性了解,第一个V就是容量,它具有超高的容量,PB、到ZB、EB这种级别很多。第二个特征就是它具有很高的多样性,数据类型,数据结构也好都是非常复杂,不像我们原先的数据都是数据库,半结构数据,非结构数据。第三个V我们需要更快的处理速度。这些数据量大的产生,需要我们处理,另外需要处理我们相关的信息。前三个V说明大数据的特征。第四个V就是我们大数据实现的目的。通过我们技术手段的处理和支持,实现对大数据前三个V的处理和分析,来实现我们第四个V的价值。这个价值主要是体现在我们对我们企业商业行为,或者商业活动的决策支持。

作为大数据的技术,前面也谈到大数据本身就是架构和技术。它的发展就是随着我们数据不断的发展变化,而逐渐发展创新出来的。原先这个数据技术,是数据量很小。需要通过我们技术的创新来实现对大数据的分析。我们可以看到随着我们数据的高速增长,时效性不管的增强,我们数据库,和结构化的数据已经慢慢发展到数据容量爆炸式的增长,他的技术向复杂处理技术发展。并行的处理技术,它是利用存储和文件系统的存储技术,用来设计实现大规模的设备上实现应用。

再有一个我们复杂式的处理技术,这个技术主要是实现对左右的数据进行分析,中间的过程比较复杂,对数据的检索,重新的更新,数据的转化存储分析计算,是特别复杂的过程。大数据的出现可以说为我们企业创造了一个新的商机。我们是否能够抓住这个机遇,我们收集各种各样的数据进行挖掘。从目前技术的发展和我们处理能力的提过,我们企业已经有能力新商业模式的创新和发展。我们企业通过收集我们商业活动的各种信息,来从中发现有价值的信息资料。通过这些信息资料我们可以分析出我们日常活动的预测。预测我们一些事先能够出现的结果,这样可以指导我们商业行为。通过这些数据的指导性,和商业行为的信息,可以把它变成一种服务,指导我们企业或者我们用户。通过这种循环我们可以实现新的商业模式,通过这种商业模式我们可以逐步的发现商业价值。

同样可以用我们原先举的例子,比如说我们以上班信息为例子,如果某个企业可以把这些信息收集进行统一的处理,这样的话我们这些信息,以某种服务的形式,提供出来。作为我们用户我们可以通过付费的方式,能够在下次出行的时候,能够准确了解,何时、走什么路线等这些信息,可以给我们带来一个非常大的便利。包括我们企业也可以从中获取它的价值。通过这个例子可以看到,这个数据收集分析利用的过程。对于大数据的实现,我们可以用简单的模型做一个说明。大数据技术体现在一个大数据的收集,大数据的处理,大数据的能效。这是一个三三结构。最底层是我们架构层,主要是实现了我们能够便于存取,或者是收集各种微型的数据中心,而且进行处理,搭建的一个基础架构平台。这种基础架构平台复杂和多样需要一个弹性,灵活的基础架构。在目前我们现在讨论的云计算的基础架构里是比较适合这个的,因为它灵活性和大规模的处理,非常适合我们对大数据处理的要求。

同时我们通过云计算的基础架构,现在各种大数据的需求。第二层是我们处理层,主要是在合理的架构之上,我的算法条件流程,相关的软件工具,实现对数据的处理。对于利用集中化的优势完成存储。这个上面是我们展现层,展现腾主要是将我们处理的结果,以某种服务结构服务到我们日常生活中,使我们日常生活利用一些结果,从而使我们整个的发展,使我们社会向一个智能化的手段发展。IT作为一种服务。

富士通对于大数据的支持和服务,涵盖了基础架构层和主力层,在基础架构层我们可以包含我们传统性的架构和目前基于云计算的基础架构。对于传统的基础架构我们知道,这些传统基础架构是我们企业原先比较成熟的应用系统。对于关键性的应用系统,我们可以通过对它进行不断的改进和优化,提升整个系统的服务。对于非关键性的应用系统我们可以做深度开发,充分发挥它的潜力价值,使它发挥更大的作用。

另外随着我们业务不断的发展和不断的细化,我们可以把更多业务迁移到我们云计算基础架构来,这样更加便利和更加适合大数据发展的复杂需求。富士通在这方面有我们自己的产品和我们自己的解决方案,可以跟我们伙伴合作发展。

对于大数据处理主要是体现在软件结构处理流程。大数据有三个V的特征,根据这三个V的特征我们可以进行一个规划,使我们软件、架构和三个V特征优化。我们看到像手机终端或者前端的数据终端,以及收集数据设备产生的数据,这些数据需要我们实时收集和检测。对于这些数据处理之后,有些数据可以直接利用,我们直接利用。对外另外一些需要进行再分析再处理的数据。第二类是我们交易类的数据,这些数据要求我们实时性比较高,需要我们高速计算的过程,通过这个结果进行汇总、分析加以综合利用。

另外一部分是我们谈到大规模的数据,这些数据我们可以通过一些像PC的工作。进行统一的处理分析。这些数据处理之后,进行综合的利用。针对目前大数据不同的特征和处理流程的不同,有三个不同处理过程。一个就是复杂式的处理,另外一个交流式处理,再有就是我们运行分布式的处理。通过这几个过程的处理,我们可以获得相关有价值的信息和数据。对于我们的日常生活的行为,起到一个指导性的作用在这一方面,可视性、精准度等这方面好处都为我们企业提供创新型服务的模式,提供一个很好的基础。

富士通技术创新主要是结合了我们自身的产品优势和相关的技术创新,实现对大数据高速的处理。这些创新主要是体现在对大数据三个不同处理过程来实现的。对于我们分布式的过程,我们采用富士通自己的分布式的软件,通过这些软件我们可高数据的并发度。采用这样的架构性能可以提高2倍。复杂式的处理上我们采用了我们自己的搜索过滤软件。这个软件的使用可以大大提高我们数据的定位搜索,从而与第三方的软件性能提升达到了提高。再一个处理过程就是我们极限交易处理,同样是利用我们富士通有的技术,实现大并发量的数据访问,由此来提高整个数据库的并发量。而且可以解决数据库高并发的瓶颈。采用这种技术可以使整个应用处理,比传统的应用处理提高10倍的效率。

对于大数据的并发处理,前面我们谈到了,采用我们软件,我们软件提供并行的软件系统,实现系统集群管理,通过这个技术的集群管理,有高可靠性。通过我们分布式并行软件系统,可以使我们应用直接访问数据,直接交换。我们可以通过原先的Hadoop的这种处理结构,在原先标准上架构中应用数据的访问,都要通过Hadoop的服务器。这样的话将会对我们数据的性能产生影响。而采用我们自己的服务系统,应用系统可以直接访问我们数据进行交换。同时还可以支持Hadoop的存储架构。通过这种架构的实现,我们可以使数据传输的时间提高80%。一旦也服务器出现故障,我们可以实现灵活切换,确保系统的可靠性。对于复杂式的改进采用我们私有的产品,这个产品主要是实现数据高速的增长。通过这个传统大大提高我们的定位。在这个事故处理性能方面主要是靠是否有一个很好的检索和处理引擎,有了这个高速的处理引擎之后,大大提升了整个系统平台处理,管理的速度。富士通采用了自有知识产权的产品,它可以快速的进行定位检索,经过简单的规则定义,对它进行定义的设定,可以来实现事物过滤。

另外我们通过高速的引擎,和我们公司自有的软件为我们用户搭建一个非常强大处理使用的平台。富士通在极限交易处理这方面的改进,主要是采用富士通自有的技术,通过这种技术的使用,我们可以大大提升整个数据库并发量。我们通过应用服务器和数据库之间,采用增加缓冲服务器的方式,来实现数据的高度的分析。

通过原先的应用架构和目前改进的应用架构对比我们可以看到,原先的应用架构,服务器对数据的访问,任何信息都要跟服务器进行打交道,服务器后台变成了一个瓶颈,通过我们软件改进,采用分布式的技术,能够使整个的访问,在我们(英文)这个层面进行响应,只有必要的时候我们(英文)数据打交道,这样可以大大缓解数据库的瓶颈,解决数据库的并发量。所以通过这个架构的改进和提升,确保我们整个交易处理的速度,我们高可靠性,可扩展性。

前面谈到大数据处理流程,处理方式,对于系统本身的处理设备的性能,对于某些复杂事物处理,高复杂性高运算的应用,需要我们有一个比较强大的处理设备,和统一的运行管理系统,富士通在去年年底发布了一款高性能的软件京,是目前处理性能最快的高性能计算机,处理速度达到每秒钟1京次,这是目前世界上最快的处理系统。像这些产品和技术,我们说都可以作为我们日后大数据处理的一个坚强的后盾。

富士通对于大数据处理的一些需求,有很多的服务器架构的产品未来供大家选择。富士通在服务器产品线是非常丰富,非常强的,有基于SMP高端服务器,也有像普通的这种低价的服务器,还有刀片服务器,还有满足高性能计算云计算的要求,服务系统。在云计算和大数据时代变革的时候,对于存储系统是非常关键的。存储系统在原先很小级别是GB,存储系统基本上是纵向架构的,随着我们数据的增长和扩展,达到PB的数据量,这种扩展的架构系统不能满足对数据的需求。同时需要我们分布式的处理和横向的统计。因此我们看到存储系统的发展和变化,慢慢演变成一个虚拟的系统。在存储系统的文件需求过程当中,富士通通过GDS的系统,也有(英文)的虚拟系统,也有相关存储软件相配合,可以实现一个统一基于横向扩展的统一数据系统。在备份的需求当中,也有(英文)系统。富士通通过这些技术的发展和创新,逐步适应云计算大数据的需求。

前面谈到就是我们存储设备在不断的发展和优化。其实这个过程我们可以发现,它其实从硬件存储系统向软件存储系统转变的过程。从存储系统搭建的架构来看,原先的硬件存储系统,包括我们存储网管,虚拟网管设备等等搭建起了硬件架构,存储系统。我们的增长变化,这种架构变得越来越灵活,逐渐的发展,现在是通过一些软件,实现相同硬件存储功能,配合我虚拟化存储设备。

富士通可以通过VS虚拟存储系统和相应软件的趋同化功能配合来实现我们云存储系统。它具有很好的灵活性扩展性,完全可以满足我们目前大数据的存储需求。富士通在存储系统方面也有完善的产品线,有自己的磁带库,有自己磁盘作业,有相关的设备,存储管理软件等等。这些产品都可以为我们用户提供存储解决方案,可以满足我们用户不同的存储需求。富士通作为三大IT供应商服务商之一,我们通过服务器存储技术的创新发展优化,为我们用户提供各种各样的解决方案,实现了在大数据方面的不同复杂需求。

目前我们说大数据现在已经来临,而且说它的出现对于我们来说,它是一个新的时代的开始,在这个大数据时代,各个行业可以在各种数据的收集利用和分析上,可以发现,它给我们带来更大便利。比如说对我们日常生活行为带来各种便利。我们企业通过对各种行业事物收集信息分析处理,可以提供相应的信息服务,信息的提供。他们可以以我们很强大的云计算的基础架构平台为载体,可以实现各个行业的输入的智能。通过各个行业不断的发展和丰富,我们各个行业的智能化的完善,最终实现我们社会的便利。富士通在大数据探索方面,像利用我们优势,跟我们合作伙伴一块合作,发挥各自优势,在目前这个挑战机遇的时代,共同发现自身的价值,共同创造商业价值。我今天内容讲到这里,非常感谢大家!

主持人:感谢邱弘总监带来的精彩的演讲。下面我们有请Spectra Logic大中国区总监苏涛先生,带来大数据时代的海量数据存储管理,有请。

苏涛:大家好,今天非常荣幸有这一个机会,我是Spectra Logic公司的,有这个机会跟大家分享在大数据时代的海量数据存储管理。今天下午我的报告给大家带来更多新意。大家讲到大数据时代,各位业界同仁已经介绍了很多大数据时代的技术发展。这四个V大家不止一次看到,我在讲大数据时代的存储管理之前,确实还要进一步的给大家晒一下我们这方面的理解和我们一些数据。这四个V里面大家都会去,第一个了解到,是大的容量,大数据都是大容量,在大数据大容量方面,我们国内做信息化建设,大家都知道在中国最大投入是数据。我拿一些我们在全球这个领域,在信息化建设这方面这个数据量怎么来的。首先大家看到的美国,现在大家都知道一个信息,美国到2020年真正要实现无纸化办公。这个是划时代的标志,这个纸张中国人发明,到现在已经两千年的历史了。今天美国人说了我们到2020年完全无纸化。看看加拿大,2017年不保存任何纸制的文件接收了。澳大利亚同样在2012年也提出了数字化纸张的战略,在咱们中国政府09年开始专门发布了中办国办发布了电子文件管理的办法,启动中国真正电子文件的数据化,应该说所有信息数据数字化的一个过程。从这个看应该说所有社会的推动力,政府整个推动数字化的过程。从911以后,带来了一个存储行业的浪潮。特别对于做数据保护数据存储的公司来说,带来了很多商业的机会。

大家可以看到这是在美国相应的一些法规,涉及到保存的年限,对数据保存年限在不断的加长,数据量有60%的增长。同时在国际上我们分享一个统计的数据,这里是财富500强企业的一个统计数据,大家发现他们数据有50%以上的数据保存在五年之上,可能28%的数据保存20年以上,由于长期保存的需求,带来了我们数据量累计的增长。同时基于我们这个数据产生的来源,应该说数据应用,IT技术的变迁带来了数据量的变化。之前大家讲到IT行业,最支柱产业是电信、金融,在今天我们说大数据时代来临,我们从西方欧美国家看,大数据产生有一块在高性能计算,这块在国内目前数量比较小,未来是一个方向,涵盖了所有我们制造业、卫生医疗、包括金融、零售业,我们能源的产业。通过高性能计算和我们云计算相关处理我们信息数据,同时带来海量的数据。

跟大家每一个人切身相关的,就是我们现在的副媒体时代,我们带来了海量的数据,每个人都能够接触到,大家开车人感受到,以前很少被摄象头拍下来。现在发现城市到处是摄象头,我们在视频监控这个领域,不光是中国,全球都是一个很大市场,带来了数据的增长。到底是什么级别?应该说在2010年的时候,大家说世界进入了数字时代。标志性的数据,每年产生的数据量超过一个ZB级别,这是非常庞大的数据。有一个比较,就是说在全人类在1999年之前,全人类所有产生数据信息量只有11EB,0.011个,但是我们现在在2010年一年产生了一个ZB的数据。这个图表大家经常看到,这是基于我们EST2010年做的预测的分析。大家看到这个数据的量是一个级数的增长。这里头分享一个数字大家更直观了,这是美国的做了一个统计,在美国平均每个手持设备存储的照片,大家没有想过,大家每个人拿智能手机,统计结果平均08年的时候,每个人有177张,到2011年有255张,预测2015每个人平均照片是300,光是这一项大家看到这个数据量在不断的增长。

这是一个美国的高性能的实验室,在2012年实施的一个高能性的项目。这个项目里面它使用380个PB的存储,只有在头两年里头的存储量。大家看到最前面的四排柜子,是四个磁带过程,存储量是380个PB,里面使用了几百个起动器实现这个存储。在大数据时代实际上还有文件的特性发生了很大的改变,在传统的时候我们,大量是结构化的数据,在数据库里面。今天很多人讲我们半结构化,多结构化的数据,大量非结构化的数据,传统的交易数据,电子邮件,表单,今天我们不了解很少接触的格式,包括日至和网页。说到网页分享一个数据给大家,中国目前有5亿多的网民,在互联网的中心做一个统计,每个人平均一天点击20次网页,我们一天有100亿网页的点击。大家可想而知这个数据量。另外一方面就是地理信息,导航有很大地理信息,前两年比较热门词物联网。物联网有很多传感器的信息,包括一些感知芯片的信息。这些年近两年社交媒体,微博、微信各种社交媒体的产生,产生大量的非结构化数据,数据类型跟传统IT产生本质的变化。价值多方面,大数据时代,真正价值产生经过大数据应用以后带来价值。这些数据本身的价值不是很高的,在我们存储大量海量的数据,每年产生(英文)的数据,大量是碎片数据,大量数据我们其实并没有那么多的价值。这些大量的数据由于数据生命周期的延长,带来我们数据量累增,这个大量数据很多数据访问量很低。我们视频大家27小时录像,真正有多少录像数据用到,可能就是几分钟的时间,发生交通事故或者发生犯罪行为的时候才会使用。

这方面我们在几年前我们,像(英文)生命周期管理的概念,当时炒的很热就是解决这些问题。应用发生很大变化?不是简单的应用管理和查询。在大数据我们要利用数据分析的手段,可视化的分析,包括我们做数据挖掘,包括我们有很多语义引擎,智能感知,预测的分析,都是带来对我们处理速度的要求。关于速度这个词,大数据来说不光是处理速度,这个数据创造,高它更新,迁徙,移动的速度,处理速度等。这里面提到速度我分享两张图片,大家军事爱好者知道这个图片,这是歼20的引擎,大家看到这个速度的变化。这个大家有没有人见过,这个美国最新击超速机,做到90分钟超过半个地球。这个速度超乎我们想象的。讲到四个V大家发现我们解决大数据时代的应用,我们存储方面怎么满足大数据时代的要求?从容量、多样性、价值、内容,我们生命中期管理能力,我们涉及迁移,很多磁盘厂商基于磁盘系统也做了迁移。当它到海量,我们把访问低的我们分析降低成本。同时快速处理我们使用越来越先进的快速处理设备,今天我们现在在隔壁的一个会场介绍新一代的存储,芯片的存储。

大家发现这些不同技术解决的是不同问题,在存储管理上我们怎么整合?这应该说在我们大数据时代,对于存储管理还是一个最大的挑战。这里介绍我们管理解决方案之前,我们跟大家分析,今天大家所接受到的存储。各位最熟悉就是磁盘存储,我告诉大家一个消息,我们每个人,包括个人电脑,包括我们企业磁盘存储上的问题。所有磁盘现在存储容量里头有70%的空间实际上浪费。这里面是40%不活跃,包括10%几的空间我们分配没有用,甚至一些碎片数据占用我大量磁盘空间。我们现在IT建设里面存储建了非常重要的份额。大家看到一个数据,我们一美元的IT投资里面,有30美元到70美元的投资进行存储,这个趋势不断往更高的比例发展。

这里我们可以看到,我们花很昂贵的投入,存储了大量无用的数据,这就是现状。再一个说到存储行业很重要的一个数据备份。这两个词可能不太好,一个(英文),一个(英文)。在备份领域我们数据的分析,一类数据写了时候很少读取,一类写了以后从来不会被读取。我们把整个系统整个文件做(英文),这个(英文)的过程中,我们把大量的(英文、(英文)的数据进行数据备份。我们可能一个月做一个备份,一周做一个全备份就是52份数据,这里面大量的数据不是非常关键的数据。因此我们做备份的时候,为了备份少量的关键数据,采用了大量的投资,硬件软件备份了并不是关键的数据。

基于刚才说的这些现状我们现在需要怎么做?我们必须要改变,不改变的话,意味着我们投资非常不值,在改变方面我们目前各个厂商在做,同时我们也在探讨的几个方面。一个方面就是今天我后面着重介绍的一个活动归档的技术。把传统静态的归档让它更加有效,能够更好再一个系统里面独立的处理好关于容量和速度的问题。另外一个在云技术里面大量的虚拟化技术,通过虚拟化的技术把我们不同的存储介质更好利用起来,对用户来说看到统一的存储池。通过一个新兴的技术,把现有介质更好利用,我们引进新的介质。在我们大数据时代来说,我们通过我们新的技术一些架构和理念,应该给用户解决问题的方法。这里我们主要给大家介绍活动归档的技术。

活动归档实际上出发点就是要给用户,给大家提供一个新成本,经济实惠的解决方案,同时保证你所有的数据都是可靠在线访问。这个解决方案是廉价是经济的。同时通过活动归档的技术,保证我们数据存储在不同介质里面。数据的创建者,会做很多的数据处理,通过中间接口层,我们虚拟化层,管理层,最后最下端是非常灵活,给用户提供一个非常好的解决方案。这种解决方案里面实际上应该说我们传统的数据存储整个路径,我们看到我们前端有很多应用,下面有操作系统,还有文件系统,还有卷案系统,我们磁盘也做虚拟化,数据通过一个渠道到我们存储体。活动归档这个领域我们做到我们高性能的磁盘系统,我们低性能磁盘系统,我们廉价的存储介质,都给进行统一的虚拟化,让用户存储的功能更加的灵活,用户的成本更加的降低。

也就是说我们实现把我们文件系统进行一个扩展,把我们所有的介质,变成统一的系统,给用户提供灵活的存储空间。这两边有两种比较流行的模式,一种是(英文)的活动归档,我们主存储是独立的,住存储是传统高性能磁盘系统,中间我们有活动归档的管理。后端是虚拟化的存储池,这个是近时间存储,我们离线存储设备等提供一个归档的环境。这样用户来说更加简便灵活,管理上更加统一,我们集成所有介质,在统一的存储里面。

我们前端有磁盘的存储,为了保护我们这些数据,我们后端会有专门数据保护的系统,包括做(英文),做(英文),这在2000年有实现的,随着技术的发展大家发现,我们有(英文)的硬盘产生。后端同样我们是用传统的备份技术,磁带技术、磁盘技术的备份,做离线的保护。随着技术的发展实际上我们可以把磁带设备引入到前端的应用。磁带技术50年前发明就是在线的存储,随着技术发展现在磁带技术也在发展,我们很多用户作为在线使用。在线部分我们有不同存储,数据保护里面我们还有一套相应存储设备,这种情况下大家都是分立系统进行存储。

我们今天有一个更好的方案,我们整合所有不同的存储介质,统一的进行调度管理。让用户在存储方面投资是最小化的。这是我们活动归档大致的一个模型,我们实现的一个模型。这里头的关键点实际上就是灵活性。就是它能够同时整个用户关于性能和容量的需求。这里面有几个应用的实例,大家看看这个我们怎么做的。第一个做数据备份,今天数据量不断的增加,我们的备份任务越来越繁重,现在有磁盘备份,ATR解决速度问题,时间方法问题。传统方法不断提升硬件设备,我们把非关键数据进行数据迁移,我们只针对我们核心业务进行备份,这样可以提高我们备份速度。

同时对这种性能要求很高的用户,属于高速访问的用户,我们以前实现高速访问,我们大量购买新的设备,我们用最先进的磁盘提升这个性能。存储使用率达到一定的时候,性能是逐渐下降的。现在我们同样有这样方法,我们通过活动归档技术,提升本身原主存储的性能。对于空间不足的问题一样,我们不断的购买磁盘,这个磁盘到PB级以上是非常昂贵的。我们在活动归档根据用户的价值,在不同成本介质里面动态实时进行迁移,让用户尽可能少的买这种昂贵的存储设备。活动归档这个技术,我们不光在内容、数据方面,在数据完整性,数据可查询,可检索的方面,还有开放的模式,这些方面我们都有考量,把这些技术进行整合,这样产生的活动归档,能够更加满足客户对存储的需求。

(英文)作为活动归档的倡导者,我们2010年我们整合我们合作伙伴的一些厂商,包括主机厂商,戴尔等,很多做归档软件迁移软件的公司,我们大家共同成立了活动归档的联盟。这个联盟做什么事情?首先一个事情就是教育用户和市场。我做的报告也是这部分的工作,让大家了解到我们有完全全新的理念和技术,能够解决用户存储的问题。另外我们通过这些厂商的整合,我们做最佳的实践,在我们用户实现活动归档的架构,给用户带来价值,证明活动归档有意义。给用户更好选择产品和解决方案的时候,有一个很好的基础。

刚才给大家讲的主要是应对我们大数据时代活动归档,能够给大家带来的一种全新的理念。说到这种存储,因为存储最关键离不开存储的介质,下面的时间我简单给大家分享一下在活动归档环境下我们存储介质的理解。存储介质每个人都在用。在今天苹果电脑里面甚至连硬盘都没有基于SID的,这种介质在不断的发展,在企业级里面,企业级应用就是两种主要的介质,一种是磁盘一种是磁带。说到这方面大家可以分享一些特性。速度方面有优势,在随机访问确实有很强优势。我们真正企业级的应用,都是磁盘的割裂,达到1.0GB以上。磁带这方面大家了解不多,今天LTO第六代技术,目前的技术,400兆每秒的速度。这个不报告我们人力机房的成本,这是设备成本。一个企业级的磁盘系统,每GB是7到20美金。成本在每GB在15美分的成本。

这方面不同的存储介质的差异是很大的。同时在存储力度能耗方面,这是我们一个的实际用户,同时有8个TB存储设备。右边是磁带系统,这是一万槽的磁带,整整8个TB。磁带系统的能耗是小千瓦,一个磁盘系统的能耗等于2500千瓦的水平,这个差距非常大,从整个电源能耗经济性,大家通过这个更清晰,每年预计有30的增长。这个环境下如果我们采用磁带系统的成本。第五年每年成本6千多美金磁盘是16万美金的成本。这个不够极端。我们看看数据的长期保存,我们大数据保存周期的增长,12年以后怎么样?经过12年的保存,一个用户有1个TB,这个差异很大。一个磁带系统保存12年,成本只有1万7千美金,如果磁盘系统在电源能耗花费就要400多万美金。

刚才大说了磁盘性能很少,很多用户都知道,这个磁带有一个问题,这个磁带非常不可靠。可靠性方面我们拿一些数据跟大家分享,我希望大家看到一些更新的信息。这里面大家看到磁盘系统有很多差异,我们用的桌面是14次方字节的码率,我们平均产生一个应用错误。当我们企业级的磁盘,有一个级数的增长。这个上面看到两种磁带介质,目前最主流的(英文)技术,达到10的17次方,19次方故障的性能。

我们看这张图,每个错误,没写多少TB产生一个错误,我们看到(英文)磁盘系统,11个TB就可能产生错误。我们企业的光纤磁盘,100多个磁盘产生一个错误。磁带上TB才产生一个错误。磁带合理的使用方式下,有很好的可靠性的保障。刚才因为大家会说了,你是做磁带库的,你说磁带库好。实际上这个经验应该说整个业界,大家可能仔细的看会发现,在今天左右的IT的巨头,大的厂商,IBM、包括EMC,EMC还和Spectra Logic签了合同。在2010年取得很大突破,他们每平方英寸保存290亿。预计不久的将来,我们会拥有每单盘容量25个TB,这个通过实验室验证。大家看到以后磁盘也会快速发展,我们磁带技术也会快速发展,以更高级数方式在发展。磁带灭亡这个事情五年人就说了,现在为止所有厂商没有抛弃它,可能也是这个原因。

今天我们发布了LTO6,现在LTO的发展,两到三年推出一代,第7代可能达到16个TB,第8代接近于35TB的存储容量。这正好是很好的存储介质,对于海量数据来说。不光是容量的问题,磁带技术,这些年的发展,也是翻天覆地的,从介质技术到使用器的技术,我们采用更好的驱动器的技术,在可靠性有极大提升,解决了磁带可靠性的问题。作为磁带的Spectra Logic厂商,我们在数据安全性方面做了量的工作,在介质生命周期,驱动器的生命周期。通过这些管理技术,使我们数据保存在磁带介质上,可靠性得到保障。

我们磁带设备包括我们基于这种活动归档的技术,在海量数据存储方面的实践应用。这是美国国家能源中心有13PB的存储,这里面大量采用的磁带技术。其中有30%到40%数据用于读的,对磁带归档了解大家知道,深度归档,大量磁带天天做的工作是写,不断的写,读的频率非常低。美国能源中心里面,大家看到它的磁带存储读的频率非常高。在这里面通过采用磁带存储,把整个成本降到整体磁盘的5%。它提出它的主存储,这个就是磁带,我们不需要2级,不是作为2级数据拷贝的数据,作为总存储。我们作为负责任厂商来说,我们也不推荐大家仅仅采用主存储的方式,我们不建议大家基于磁带保存只保存一个副本,这个对于任何存储都非常可怕的,为什么今天所有在线系统都要做数据保护的原因。

这是(英文),大家可能在很多电视看到(英文)频道非常精彩的题目,这需要构建全球多站点的数据归档,数据量达到30PB,采用了我们多台的(英文)设备,通过活动归档的系统,后端有磁盘缓存。CHS是美国社区卫生医疗的系统,类似于咱们国家做医改搞得健康档案的平台,已经建成的平台,29个州在使用。希望就是说我们建造安全归档存储,医疗数据在美国法案保存30年以上,采用的方式,也是采用了很大的前端,很大磁盘的态势,提高在线可控在线的访问,通过管理的平台,后端整合进去磁带的存储,到在线存储离线存储整合在一个平台上。

这边是美国前五大的银行机构,它的数据也非常大,20个TB,同样采用了活动归档的系统平台,采用了磁盘作为前端高速的缓存,后端是一个非常大型的(英文)的磁带库,进行海量数据的保存。

大家通过分享,看到的这些案例,我们讲到分机存储技术,活动归档技术在今天有很多实践。后面有点时间做一些广告,给大家介绍一下Spectra Logic的公司。很多朋友大家以前没有听说过Spectra Logic,Spectra Logic是非常技术型的公司,有30多年的历史。向用户提供海量数据可靠保存的解决方案。我们在前十大数据中心,有八家采用了Spectra Logic的数据存储解决方案。

看我们的目标实际上通过我们技术革新、创新,给用户提供低碳化,企业级的磁带存储产品,满足用户绿色数据中心的需求。让用户存储海量数据,更高密度,占用更小空间,更可靠的能耗。达到大数据应用不可回避的一个问题。这是我们顶级的(英文)的磁带库,我们单套磁带库达到24万盘的容量。单台我们可以达到2万盘以上。大家看到(英文)那个用户,他仅仅是380个TB非常巨大了,只是用了我们四台机连的方式,我们最多可以有12连的机连,提供更大的容量。

因为Spectra Logic我们一直做技术创新,应该说在过去的10年里面,不断的基于磁带技术的创新,我们得到了很多业界的认可,得到了大量的奖项,都是基于技术方面的奖项。给大家分享两个,专门针对大数据时代,DCIG专门做了一个大数据的指南,这个单独有一项针对磁带库的,Spectra Logic在单机、双机这两项评价里面都获得了第一名的成绩。涵盖了大量的分析数据,大家有兴趣可以提供大家详细的分享报告。意味着在大数据时代数据存储方面Spectra Logic有很好的产品非常适合用户,解决大数据存储的问题。另外一个奖项是这周拿到资料,这是我们Storage杂志每年针对不同的IT技术,存储技术进行评测,这是12月份刚刚发布的成果,针对企业级终端磁带库市场做了详细的分析,我们Spectra Logic在终端磁带库,企业级磁带库两项里面都获得了第一名的成就。这个评测是非常权威的,涵盖了整个的产品销售竞争力,包括产品质量,包括产品功能,包括产品的可靠性,还有我们售后服务支持的能力,是一个综合的评测,应该说Spectra Logic获得了很好的成绩。

另外这是我们两个比较大型的客户,这是一些案例,产品在这里不过多介绍。一个是(英文),是美国宇航局这个有大量的数据,在早期做开始做火星探测,机遇者、勇敢者号探测采集的数据都是用Spectra Logic的磁带库,在大量的存储空间的同时,减少了GDP占的。另外一个更近一些,这是我们邻居,韩国的气象中心,现在至少是亚太,全球可能也是排在前面,最大规模的气象中心,有很高性能的机器。我们整个数据备份,采用我们Spectra Logic(英文)的产品。在前面我们可以看到用了几百个IBM的T140的起动机。应该说Spectra Logic目前在离线存储,或者说磁带存储这个领域,在企业界领域走在非常前沿的位置。

刚才这些介绍占用大家很多的时间。最后总结一下,我今天想跟大家分享向大家介绍活动归档的技术,通过活动归档技术给大家在数据存储量,成本非常灵活的管理,给大家整个大数据时代的存储,带来更加全新的理念,希望大家有兴趣的话,我们会后大家都可以进行进一步的交流。在最后再次感谢大家!

主持人:下面有请天津中科蓝鲸信息技术有限公司产品经理刘振晗先生,演讲题目是大数据应用下的存储挑战。

刘振晗:谢谢大家非常高兴在这里代表中科蓝鲸的存储挑战。当前全球信息总量,每两年增长一倍,面对爆炸式的增长,我们采取什么方式应对,这部分重要性和价值越来越高,每个企业都无法容忍这个数据的丢失和损害。如何将资源进行有效的应用,这是摆在我们面前的挑战和促进。中科蓝鲸希望采用一些新的技术。为客户提供节省投资,提高存储系统效率,同时可以节省投资的这么一个解决方案。

在这个过程里面我们面临一些制约因素,比如说如何去为客户减少它的项目投资,包括如何保证他以前的原有投资,在系统升级过程中如何保证系统可靠性,不会影响系统正常硬性。如何在系统运行之后,尽量减少对维护人员的影响。包括如何维持基础架构不做过多改变,这些都是我们需要解决的问题。我们希望把大数据分为两个主要的方向,一个传统音视频领域非结构化数据,另外是一些传统的非结构化数据。一个数字媒体行业,另外一部分就是视频监控的领域,主要是用于平安城市、社会城市、数字城市、智慧公安等等的这些领域。其他非结构化的数据,主要是集中勘探数据计算的分析,石油地质的勘探,需要通过地震波侦测地质的不同性质,这个地震波以图象方式反馈上来,每个地震波需要大量图片组成,而一个图片大概容量是几G十几G甚至更高。其他方面比如说高性能计算,遥感信息处理,档案设计,互联网网站应用,海量图片应用诸多领域。我们首先对大数据的获取。最后大数据的处理,通过信息分析希望信息产生价值。

这个数据的获取从平台终端的角度来分,我们可以发现从PC包括手机包括大量的传感器,包括传统数字媒体的摄像机、录音机,都可以产生大量的数据,从领域上来分,包括互联网,包括其他的相关很多领域,都会产生大量的数据。存储大数据主要是通过不同的存储厂商,为客户提供不同的硬件和软件的支持。大数据的处理希望把海量的信息量价值比较低的这么一些数据,通过能够数据挖掘,数据分析等一些技术,提取出对用户更有价值和更珍贵的数据。

中科蓝鲸在这样一个形式下面,具备什么企业价值。一部分是产品技术,一部分是产品策略,一部分是认证。产品技术上中科蓝鲸具备业界领先的技术共享技术。面向客户运用创新的技术。中科蓝鲸具备十多年的数据保护和数据存储管理经验。可以提供先进成熟的解决方案。在用户验证方面,在异架存储管理方案,市场占领领先的优势。

我们把中科蓝鲸存储解决方案实力划分为四层。第一层存储的解决方案,为企业提供基础存储结构的部署。第二层存储管理的方案。为企业提供信息数据生命周期管理的方案。再上面一层存储方案的一面。为企业信息系统提供顾问的系统。

中科蓝鲸大数据解决方案理念,可以被流媒体大数据为主高速度方案,集成数据归档解决方案。另外一个实现数据共享。第二大部分主要是扩展能力。中科蓝鲸的方案具备强大的系统扩展性,同时从传统的结构化数据到未来非结构化大数据可以提供多重管理手段,这个后面有详细的介绍。同时主力于未来客户私有云的部署。

第三部分它具有高价值的收益。主要体现在异架部署企业级软件设备,另外实现面向业务的数据分级,存储管理,有效整合企业已有的资源,保护用户的已有投资。

第二部分给大家介绍一下传统音视频行业大数据的解决方案。当前以广电为主的数字媒体行业,数据特征有如下变化方式,主要三个方面。一个业务数字化,一个节目高清化,第三电台网络化。业务数字化主要是产生大量的数字化数据,节目高清化,产生大量音视频文件同时,随着清晰度的增压,这些音视频文件本身尺寸也会极大的获得提升。为不同客户端提供共享的支持。

下面举几个实际的例子,上述的冰河时代,这些电影都是在这个平台上进行编辑和制作,编辑对存储能量有巨大的需求。如果是2K的数字电影,每祯是13到20兆P的大小,4K的数据电影每桢达到50兆B,在整个影片的编辑里面,全部的数据达到数百平米。2K数字电影需要400兆每秒,4K需要带宽1.2G/秒。面对数字媒体行业提出新的需求,中科蓝鲸设计了如下的解决方案。地层的存储设备以在线存储,静线存储,离线存储不同的分级方式提供访问。上层可以进行数据迁移,存储访问,存储服务器的配置。再上一层传统数字媒体行业的业务,包括服务器的机群。再上一层就是我们总结为采集、编辑播出的业务流程。整个所有业务流程和管理系统,都可以通过中科蓝鲸大数据解决方案满足它的需求。这个方案优势主要体现在这几个方面。一个可以为整个业务流程提供高速度的数据通路访问,另外一个提供异构平台的访问。对(英文)提供统一的访问支持。这些异构客户端访问同样一个资源,我用一个(英文)的客户端把我笔记本采集到的视频上传到 我们业务平台,另外一个编辑对这个目录里面对视频文件进行编辑,包括剪切,配音字幕后期制作。另外一个办公室领导对视频内容检查,看看有没有不符合需求的情况。最后通过另外发布的过程,对外播出。这就需要我们中科蓝鲸为整个系统业务,体够一个共享的访问模式。

不同客户端以不同的平台,看到是同样一个用户的空间。再一个为了节省用户的投资,包括前面也说过,由于业务比较复杂,所以不同业务部门对存储的性能带宽,还有存储能量有不同的需求。所以说我们也为用户设计分级的概念。上面介绍了数字媒体行业的解决方案。

接下来介绍视频监控行业数据增长对数据存储提供的需求。满足PB级的存储,这个不管是摄象头的数量在不断的提升,监控数据的类型也是越来越多,同时对这个监控清晰度也越来越高,系统中存放的时间长度,也是希望越来越长,新时代的发展对容量有巨大要求。同时对带宽有巨大要求,需要满足高并发实时读取能力,较高的传输能力。把不必要的数据直接的过滤掉,这一方面进一步增加了对存储系统的负载。 再下一部分需要存储系统有良好的扩展性,这样有效对数据量飞速增长,对存储空间不断扩大的需求。

再一部分对稳定性的需求,需要保证数据的可靠性,再一个保证连续性。我存进去的数据不能随便丢,如果需要的话,数据丢失承担政治思想。要保证视频监控录入的连续性。这需要存储系统能够提供稳定性、安全性,同时提供相对低廉的成本。那么针对上述的需求,中科蓝鲸视频监控行业大数据解决方案设计如下。地层通过服务器的架构(英文)整合通过设备虚拟化技术,提供(英文)的访问。上面我们通过文件系统,对存储空间进行一个虚拟化,这样就便于前端所有的应用,能够访问到整个系统的(英文)的。同时在这个原数据服务器,采取了(英文)高可靠的模式,这么做的模式可以提高系统的环境。整个方案的优势,在于一个是可以满足高系统录像的性能需求,同时满足高性能回放的需求。我们设备这一层做了一些改动,包括有一些国家专利的支持。我们对LOS做了整形的基础,通过对设备这一层内存,调度进行一些修改。

同时还具备智能分析平台联动的功能,这个是中科蓝鲸为视频监控行业提供的大数据解决方案。

最后给大家介绍一下其他非结构化的大数据解决方案。随着中科蓝鲸这个产品在广电视频监控获得不错的成绩,中科蓝鲸推出了(英文),以异构视频为主的领域向更大数据。非传统音视频行业,雨情监控,军工等领域。具有海量分散存储,处理分析算法复杂等等的特点。这个主要是比较一下传统存储的挑战,还有中科蓝鲸的一个应对方案。ITC的数据表明,非结构化数据的增长远远超过传统结构化的数据,这个从图里大家得到一个直观的数据。海量非结构化数据成为困扰越来越多企业的难题。传统的数据处理不能满足它的需求。(英文)内部的挖掘方式,基本上触及到了性能偏好,性能带宽关键指标无法随着容量的增加而增大了。所以我们得出个结论,(英文)已经不适合非结构化视频存储的需求。中科蓝鲸(英文)为有效应对大数据提供了解决方案。

这个方案有下面几个特性。首先是单套系统可以支持多种的访问模式。可以用于多重的网络,可以提供光纤网络,还可以提供两种网络并行的网络,(英文),在包括STP等一些协议的支持。私有协议的支持,中科蓝鲸自有的PWX系统的支持。这个跟大家说过全局统一命名空间。对虚拟化的整合,包括从用户看到是一个统一的命名空间,不像传统的(英文),需要访问不同存储服务器节点数据的时候,需要到不同目录上,这个直接可以把这个多个存储服务器的空间,做一个统一的管理,做这个统一管理的好处,一个前面说的共享,另外在客户端这一层实现负载均衡和故障切换。

中科蓝鲸推出的(英文)的方案,就是(英文)集群访端的方案。当(英文)不能满足性能需要的时候,我们可以对它进行横向扩展,以(英文)集群方式提供服务,随着性能的增加,提供一个线形的提升。(英文)可以自动将负载迁移到新加入的网管节点,这个内容不需要人工干预和更改原来的系统配置。可以基于运营和IP地址访问负载均衡。

再给大家介绍一下业务连续性和数据可靠性。这是要求对我们非常过的一点。这个是诸多方案中的一种,数据可以在不同物理设备间做静态的访问模式,根据业务需求,或者根据客户不同要求,成本需求,对原始界和数据界进行提升,我们对比较重要的数据进行静像保护。后端存储的系统可以以最高等级提供连续服务的方式,同时基于文件的机制,通过一个请求,同步写在两个盘阵上的方式,确保数据的高度一致性。容量的扩展可以通过纵向进行容量的扩展。当这个性能单排(英文)节点性能不能满足整个业务系统,我们可以通过存储横向扩展的群柜,(英文)机群可以通过横向扩展,这样实现整个系统纵向横向的扩展,更大满足用户对性能容量扩展的需求。

接下来介绍一下基于策略的数据归档与生命周期的管理。中科蓝鲸主要提供在线存储、静九先存储、离线存储三种方式的存储。可以让数据在不同级别中,可以减少数据分级的管理。

中科蓝鲸可以提供多样化的数据保护策略,主要是分为归档,归档指文件被迁移到二级存储,一级存储中显示被迁移的链根,数据在一级存储中仍然存在,二级存储中备份一份。以设备立旧为目的,快速将这个数据从一级存储转移到二级存储。删除指数据生命周期结束的时候,进行删除,可以用于删除不需要的文件类型。

还有其他非结构化大数据的解决方案,最后进行一个总结。非结构大数据解决方案主要是以高效的BWSS,网络分布式分散系统作为架构依托,通过IP网络,光纤网络,共存的模式对外提供访问,这种访问可以以客户端存储设备支链方式提供,也可以推过(英文)集群方式对外提供访问。同时可以通过数据归档和数据化迁移的方式,对整个数据库里面的数据进行分级访问,对数据生命周期,提供不同策略手段的管理方式。最后这个方案的优势总结一下,在于(英文)集群提供高带宽的访问,可以与(英文)支链方式进行访问,可以与异构平台访问,同时提供数据的分析管理。

最后中科蓝鲸愿意与各位一起努力,为深受大数据管理困扰的企业进行服务,提供他们享受大数据的正能量,正价值,谢谢大家!