在谈到大数据时代的现状时,英特尔中国有限公司存储产品市场经理亢海峰认为,需要尊重实践,需要找出大数据面前大家面临的关键问题,从中寻求更佳的解决之道。
当前我们所面临的数据和信息是变化的,数据生命周期已经完全改变了。那么在传统的数据中心方面,大家面临什么样的问题,如何应对和解决?在未来的云的数据中心方面,会面临什么样的问题,大家又如何来解决?
在做存储行业趋势分析时,亢海峰指出,“来自IDC的数据显示,未来几年间数据量从2011年的1.8 ZB,在2015年会增长为35个ZB。十年前,大家还在使用3.5英寸的盘,5.5英寸的盘,后来有了光盘和DVD,不同的介质,存储的数据越来越多。
那么这些数据来源于什么?来源于个人和企业用户不断的膨胀的存储需求。现在随便一个手机就差不多八百万象素摄像头,意味着什么?大家每拍一张照片, 就会上传到网上,与朋友以不同形式的分享,类似这些数据不断累计就形成了当今爆炸性的数据时代。有越来越多的数据中90%是非结构化的(主要是图片和视频 为主)。
来自IDC的报告显示,从2010年到2016年四种类型数据的增长情况来看,首先传统的结构化数据,也既是说数据中心里面常见的数据库,运行核心的业务,核心的交易。那么,这一类称之为传统的结构化数据
其次是传统的非结构化数据,也就是企业里面有共享的文件和文档,大家需要文件服务器,可以在一个系统里面共同分享知识。
再次,在数据备份方面,业务的数据量越来越大了,备份也增长很快。很多数据是大家由于长期归档的诉求所存在的。
最后就是共有云的数据。那么对于这种不同类型的四种数据哪一个增长最快,肯定是公有云,也是大的数据领域的范畴。存储的目的是为了满足以上不同类型数据的存储需求。
重新定义的数据生命周期
什 么叫做重新定义的数据生命周期?以前大家探讨的是什么?信息生命周期. “说你有一个信息,它产生出来,你创建了这个信息,过一段时间,达到了一个价值的高峰,大家对这个信息访问都很频繁,都喜欢这个信息。然后过了一段时间, 这个信息过时用不到了,就把数据删除,这是传统的生命周期,从出生,到高潮,到低谷,到删除。” 亢海峰说道。
而现在的数据,随着数据的累积,随着时间的推移,相应的数据越来越多得到的信息就越来越多。新一轮数据量的积累之后就获得新的数据价值,称之为价值的排浪,它会呈排浪的形式逐渐从数据中挖掘出信息,这一切取决于取决于大家对于信息的理解和积累。
对于存储来讲怎么划分这种周期?“最下面的存储介质大家基本上放在磁带上需要长期的归档.或者放在磁盘库上,或者是大容量的,低成本的介质上.对性能又一定需要的数据就用高速的磁盘,性能要求再高的用闪存盘,SSD等等的数据。
可 见,数据的生命周期已经截然的改变了。今天对于数据的划分是逻辑的划分。第一,大量的不常访问的数据,通过磁盘的介质进行长期的归档。第二,这一层的数据 一定要满足不断的增长,因为没有时间去删除,更何况是要挖掘出来大家以前没有的,看不到的价值。第三以后要查询数据时就要快速读取,能不能把长期存起来的 数据迅速找到,拿到一个快速的数据层,使得实现数据挖掘的价值,从数据变成信息,从信息变成决策,影响未来的发展。
可见,存储所面临的问题和挑战,首先是数据太多,其次难以管理。第三是运营支出。最后是资源锁定利用率不高等。
在 传统的数据中心,大家看到了交易型的数据库,如何来解决这样的问题,通过网络连到了一个存储,然后为了保证这个存储的可用性,把数据备份,而后多数据中心 做实时容灾,这是非常经典的存储架构。,但是对于数据的存储方面,目前主流的四个需求已经呈现出来,第一个是重复数据删除:比如每天大家生活中最常见的发 邮件,大家会抄送给很多人,我们的邮件服务器上会有很多重复的邮件副本,这些数据也会占用大量空间 第二:实时的压缩:刚刚说两个数据中心以前产生一百兆的数据,通过千兆和万兆传出去,没有问题,如果你有5个TB的,你通过网上传输,还不如拿着硬盘坐飞 机过去来得快,因为受制于网络带宽。可不可以把数据进行压缩后再传过去,这也是一个解决的方式。
第三个是分层存储,大家谈到了在一个存储里面,这个数据是不是说一开始并不是热点的数据,后来的由于某种需求变热,而后变冷,存储的介质要求一定是不一样的,如何按照需求来移动冷热数据到对应的存储层上这也是一个存储的需求。,
第四: 是自动精简配置也将是存储的需求之一。
所 有这些存储功能,都需要计算的能力,要想知道什么是重复的数据,必须先要计算哪些块是一样的,你要想删除的话,就要进行大量的重复数据删除,也要进行计 算,分层的存储也要知道哪一些数据块热,什么时候热,怎么样迁移到对应的层次上,这些都需要用计算来感知。,现在的存储完全和以前不一样了不仅仅是一个仓 库需要更为智能,更为精细的管理员,需要管理的流程和方式,这都是需要运用计算来实现的。
通过计算来实现的存储看到可以达到什么样的目的,数据压缩可以节省80%的空间。数据重复删除的备份量可以减少95%,数据的精简配置大家可以释放40-60%的空间。通过计算能力的增强,将大幅度提升存储的有效性。
所以对于传统的数据中心而言,不断丰富存储的功能是大家解决很多问题的行之有效的方法,而这些方法基于存储的计算的能力,基于CPU所提供的智能化的管理和存储的能力。
那 么,未来的数据中心如何,在未来的数据中心里面大家看到其实有不同的数据,有一部分是实施业务的数据库在运行,还有一部分是长期归档的海量数据。“举一个 简单的例子,国外的某一个数据中心,或者国内的大网站,运营商,你走到他的数据中心里面,分不清哪些是存储,哪些是服务器,全部是标准的机架服务器,甚至 是密度更高的服务器,坏了怎么办,换下来,拿走。换新的。整个的存储服务都是靠软件+标准化的硬件来提供服务的。”
这些服务器集群拥有超 大的容量,大家可以看到达到百P甚至是上到EB的级别,所以在大数据的领域横向扩展的存储,也是未来的一个发展方向。过去大家都说存储是存储,服务器是服 务器。到了今天希望通过融合的架构,标准的架构,既可以做存储,又可以做服务器,唯一的区别是应用模式场景不同,大家采用的配置不同。对于性能需求大的, 配置更高CPU更大的缓存,对于存储需求较大的配置更大的硬盘等。
最终的目的,对各种应用模式和场景提供经济的高效的扩展平台。
如果大家采用更多的计算能力,大家完全可以用智能化的存储,减少四十到五十的存储空间,采用重复的数据删除可以节省95%的备份数据。
目 前英特尔不仅拥有存储、网络、计算、也拥有大数据分析,管理,安全等相应的解决方案、涵盖了大家在整个行业里面的方方面面。但是,因特尔的角色是跟大家一 起来共建这个生态环境,和前端有硬件厂商,存储厂商,软件服务器,行业方案解决提供商,一起携手将最好的,最优势的方案提供给客户。这才最终是我们的价值 所在。