在第六届中国云计算大会上,浪潮集团云计算技术总监张东表示分享了当前大数据处理面临的挑战及解决之道。他强调,云计算大数据的规划需要一步一个脚印,逐步从建云开始到聚集数据,浪潮提供的大数据解决方案的关键词是“一体化”。
张东认为,认为从云计算到大数据实际上是一条把资源聚集到数据聚集到数据利用的一个完整路径。特别是在现在,云计算已经谈了几年了,很多的系统可能也建起来了,如何能够真正实现在一个云里面实现数据间的融合,打破数据间的壁垒,可能就是现在这个阶段要做的最重要的工作。
浪潮认为应当从行业大数据入手,张东介绍了行业大数据的三个特点:数据价值密度更高,更具可挖掘性;数据具备独立性,共享存在各种障碍;行业间数据综合分析处理是未来的发展重点;更加关注数据转化为服务过程中的独特需求。
张东还分享了数据处理周期中面临的四大挑战,以及浪潮的解决之道。
浪潮集团云计算技术总监张东
数据处理周期中所遭遇的挑战
首先,浪潮还是把大数据从一个数据的收集聚集起来开始,一直到最后,浪潮把它进行分析,进行决策,把它展现出来这样一个过程,包括采集、存储、分析、可视化,以及最终为决策来服务。在每一个阶段,实际上现在还有很多的问题,浪潮如果要想将大数据推广到更多的领域,能够让更多的行业用户,或者说传统的一些信息化用户用起来,那么浪潮必须要来解决这个问题。
挑战1:数据收集/清洗/过滤
第一个,就是在采集和汇总领域的问题。因为浪潮在这一两年里面顶着大数据的名头去找了很多用户,很多用户听说大数据很好,搞完预算以后,要搞大数据,他们也很热心。但是,你去看一看他的系统,首先第一个问题,数据在哪?很多人想做东西,实际上并没有他要做这个东西的数据,第一个问题就是数据的归集,可能很多数据产生了,但是对他来讲,他没有一个有效的办法把它归集到系统里面去。当然,这个归集可能是技术手段原因,也可能是一些管理上的原因。
第二个,就算他归集来了一些数据,这些数据的来源也非常复杂,可能是自己产生的,比如说他自己去采集,用机器采集也好、用人去采集也好,也有的是从别人那拷过来的,然后你也没有办法去保证这些数据都是好的,或者说都很适合于来做他后期的业务。也就是说在这里面数据质量是个很大的问题,数据格式不统一也是个很大的问题。
最后在一些政策或者管理制度上的限制,造成了很多数据没办法统一起来,浪潮后面可能会讲到一个例子,是国内一个很典型的部门,就是公安,大家都觉得它应该是一个部门,但后来发现里面是N多部门,里面所有的数据在原来都是互补连通的,这个现象不仅仅在这样一个行业,浪潮在很多行业都看到了这样的问题,上下级之间可能不通的,平级部门之间可能也是不通的。
第一个要解决的问题就是怎么把这些东西归集起来,解决归集里面一些技术的手段,和浪潮怎么去做标准,怎么把它规范化的问题。
挑战2:数据存储和管理
第二个问题,这项数据归集起来了,就会遇到一个问题,就是存储和管理的问题。其实也有很多人说我有很好的采集手段,我有很多摄像头和传感器,但是这些东西传回来很困难,后台没那么大的存储能力,过两天就得重新把它滚一次。在这里面,随着数据规模的日益庞大,同时,数据类型也越来越复杂,可能有图片、视频,有能放到数据库里面的,有放不到数据库里面的,现在很多的那里保存了很多放到数据库里面的东西,放不到数据库的慢慢就被替换掉了,因为实在太大,放不下。
还有就是在统一存储过程中的共享和隐私的问题,这个浪潮在不止一个用户那边都会跟浪潮提出一个要求。浪潮现在建了一个统一的大池子,以前的数据都放在我这儿,我现在要把数据放到他那去了,你怎么保证我放在他那的数据是安全的?你一定要给我上这个手段、那个手段,当然很多用户听到的都是传统的手段,比如说强制访问控制、要加密等等,但是在这里面,传统安全的一些手段,应该说这是在云计算模式产生之后大家一直在探讨的问题,而且也是一直没有非常好的答案的问题,也就是说我聚集起来以后,怎么防止用户之间互相渗透,第二怎么防止后台的管理员,这个我以前根本没有见过的人,我要去信任他。
挑战3:数据分析过程
第三个问题是在分析过程中产生的问题,从前面的接触来看,分析过程中问题简单来讲就是两条。第一,懂业务的人不会写程序,会写程序的人不懂业务,如何将这些懂业务人的知识转化成计算机的知识,这实际上是一个很麻烦的事情。刚才前面很多专家也讲到了,现在在一些大企业里面做的一些尝试,做人脸模式识别,包括语音、视频、音频,如何训练机器像人的大脑一样工作。但是在很多的专业行业里,其实还有很多更专业的知识。比如说行政领域可能都是靠人,比如说现在浪潮的医疗,当然大家讲专家医疗已经逐步往前走了,但是在医疗系统里面也是一样的。前一阵子浪潮跟同事在一起讨论的时候,大家也在说这个问题,是不是可以通过计算机的网络,大家拿着自己的症状、化验单能够让计算机帮人看病,解决浪潮现在很多时候面临的医疗问题,当然这是另外一个话题了,但是在这里面,如何能够将人的经验转化成计算情感,这是很多人都会面临的,好不容易找到新应用的人了,其实写出来的应用做OA还可以,可能再做一个真的要结合他的业务就会很复杂,而且现在有很多算法层面或者更深层面的东西是没有突破、没有解决,需要更好的再往前进一步,真正实现通过浪潮所有的摄像头监控一个人,这个事情很难做到。
第二个,就是这个应用太复杂了,以前大家都用数据技术,后来都用数据仓库,再忽然有一天,大家说Hadoop是个好东西,大家全上Hadoop。是不是所有的应用都适合Hadoop,其实不是的,从原来的数据库切到Hadoop觉得不行又切回去了。如何找到多样性适合应用的一些技术来解决它的根本问题,也是现在面临的一个挑战。
挑战4:数据可视化
最后就是可视化的问题,现在很多人习惯用平板、手机将这些东西展现出来,也是一个很大的问题。前面浪潮讲到一些挑战,后面说一下浪潮在这方面做的一些工作。
首先,浪潮刚才讲了,大数据也是浪潮整个云计算战略的逐步往前迈进的其中一步,浪潮从行业云开始,帮助用户做运算、聚集资源、分析数据,这由于浪潮现在这个云计算的解决方案。浪潮还是专注在浪潮的数据中心方面,从底层机房建设到服务器、到存储,到浪潮提供基础的系统软件,一直到上面来提供大数据的咨询服务、规划的服务等等,来帮助用户建立一套云计算和大数据体系。
浪潮的解决之道
在过去的一年里面,浪潮在云计算方面也推出了很多新产品,包括模块化数据中心,面向互联网高密度的数据中心,现在在互联网市场占有率已经很高了,包括面向行业的大数据领域等等这样的一些产品。
张东表示,为用户规划云计算需要一步一步走,不能从零一下子蹦到三,而是逐步从建云开始到聚集数据,浪潮也为用户提供整个一套建设方案的咨询。
具体到大数据方面,浪潮提供的方案一个关键词,就是一体化?浪潮认为一体化分三个部分,第一是浪潮前面讲到的所有处理过程的,从采集、存储、分析、可视化,都可以用这样一套系统解决。第二,发挥浪潮在硬件方面的优势,通过软硬结合来提升整体性能,包括硬件方面的加速算是,以及现在专门面向大内存计算的能力,提升整个大数据处理的性能。最后就是解决方案的一体化,面向不同的行业,像今年浪潮发布了面向金融行业的一体机,未来还会发布面向公安行业的一体机,来做整体的解决方案。
最后为大家分享几个解决方案的例子,这个实际上也是浪潮的案例,浪潮现在还在建设过程当中,这是一个省级公安从云到大数据的整体案例。前面列到的这些问题在刚才已经说到了,比如说浪潮也觉得一个政府部门可能领导一句话,大家什么事都好办,实际上什么事都不好办。这里面的很多东西,比如说数据共享,在这之前可能刑警、经济、户籍、海关、出入境全都是分开的,数据之间的共享度在这之前非常差,业务系统重复建设很严重,所有的系统都是单机运行的,数据处理能力也较差。
这个就是刚才浪潮说的,每一个系统都对应了一套硬件,对应了一套数据库,对应了一套独立数据,当你要做应用的时候,你给这个做应用,可能在那个上面就没法跑。通过浪潮给他从底层进行规划,包括底层的IaaS层,到中间的基于浪潮开放的大数据处理平台,浪潮可理解为一个PaaS,但是浪潮还是一个初步的数据共享连通的平台,将它所有的IT系统集中在一起,将它所有的数据集中在一起,实际上它原有的应用,这个业务系统可以不动,它只要说我跑在这个上面,访问那个地方的特殊数据,就形成了一个新的平台,将内部所有数据共享起来,同时将外面的数据拿进来,可以进行多点碰撞,实现更多的它以前解决不了的问题,或者说没有办法快速解决的问题,这样就形成了一个整体的云计算和大数据的平台。
这个是浪潮具体的一些方案,这是物理上的一个结构,通过统一监控管理,将全省的平台联合在一起,这是在大数据方面通过多种处理数据的手段,比如说它里面有很传统的数据库的东西,比如说很多人的户籍信息可能都在数据库里面,但是它更有大量的音视频数据,采用了多种平台,包括数据库、类似Hadoop这样的新式平台,来构建一个统一的平台。
在上面是浪潮浪潮的一个数据共享平台,也叫IOP,将底层所有的云数据进行统一抽取,统一进行处理,在上面把它展现出来,这样就形成了浪潮面向公安的一个大数据解决方案。