北京华智鑫达科技李宁:云计算与大数据应用

2012年7月22日下午,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室主办,CIO时代网承办,北达软协办的“首届中国大数据应用论坛”在北京大学北配殿成功举办。来自各企事业单位领导、行业权威专家、信息化负责人等出席了本次论坛,就如何挖掘大数据价值、大数据时代的应用等问题进行了分享和交流。

北京华智鑫达科技发展公司首席架构师李宁先生在论坛上做了关于《云计算与大数据应用》的主题演讲,以下为演讲实录:

北京华智鑫达科技发展公司首席架构师李宁先生

各位领导下午好!今天我的演讲题目是《云计算与大数据应用》。我们公司是专注于云计算平台与大数据解决方案的顾问公司,为企业、尤其是传统制造企业提供低成本、高效、安全的信息化解决方案,我们一直研究开源系统应用。Hadoop设计理念跟我们公司服务宗旨非常吻合,所以今天我也要着重讲一下Hadoop。

首先看一下现在的真正挑战。我认为真正的挑战就是数据量几何式急速增加。这个挑战是大部分公司都会面临的问题。几何式急速增加可能在传统行业里没有那么陡,但是将来也会遇到。那么我们如何面临数据量的增加呢?刚才几位领导和专家已经谈过了,大量结构化数据和大量非结构化数据。我认为企业如果建立大数据的处理能力需要几个方面:数据快速存储能力、搜索能力、分享能力、深度分析复杂数据等能力。

我们对大数据技术发展也进行了研究。Google在创业阶段,它的想法是把整个互联网内容下载下来,计算分析网站内容。他们是创业阶段没有那么多钱,就买了很多相对便宜的服务器,给集中在一起,将整个互联网数据下载下来,并且计算。2005年Google发表了一篇论文,就是分布式计算跟存储的论文。这个时候Nutch项目的领导人对这个方法很感兴趣,使用这个。最后Yahoo也用了这个方法,研发了几年把研发结果回赠给他们。这个项目就变成现在众所周知的Hadoop项目。

Hadoop特色,刚才嘉宾们也说过了。首先是为大规模数据存储和计算提供可靠、高效、可伸缩的开源软件框架,应用的硬件需要成本低廉。这是其他项目所无法比拟的。刚才中国移动的领导也提到一个对比表,一个是400万投资,一个是25万的投资,这就是Hadoop的魅力所在之一。它有几个假设,最重要的假设就是它的主要节点是要保证运行,如果崩溃了的话,问题很大。DataNode崩溃率是非常高的。这是两个关键的假设,这些假设决定了DataNode可以用很便宜的硬件设施来实施。

下面介绍一下Hadoop的架构。它是一块数据过来,分了很多块(128M或者64M),通过运算产生中间结果然后得到最终结果,这就是一个最简单的Hadoop分布式存储跟计算的架构。

最上面是它的文件结构,下面是map,再下面就是Reduce。我们对这一套开源系统生态系统也主要的看了一遍,现在这个生态系统发展非常非常快,刚才也有专家说,这是一个非常活跃的。我主要想说的一个是APRCHE HBASE,在Hadoop上面建立的一个数据库系统,还有Yahoo用的,这个诺基亚也用的非常多。我们对机器语言的学习能力,比如大规模数据里面找规则、找规律,这种应用深度挖掘的能力实际上现在在开源系统里面有,当然它比较复杂,但它能完成很多我们以前没有办法完成的东西。咱们也有很多人上亚马逊买书,买完书以后你再上去的时候会有很多推荐,这些推荐就是类似协同过滤计算方式,他们会推送给你一些建议。上面的图标所建立的基础都是在Hadoop、HDFS等上面的。

下面我谈两个案例,一个是传统行业大数据的应用。这是我们以前做的一个项目。这个项目是什么呢?这家公司是一个老牌的德国制造企业,他们的数据量非常大。面临的问题一个是查询速度慢,还有就是ERP里面提供的功能不够完善(已经没有办法拓展了),他们的报告已经不能满足需求了。这个项目我们叫做“信用管理项目”,大部分ERP信用系统都是建立在应收账款上面的信用管控体系。而这个信用管控体系不能完全涵盖企业的业务关系。比如说这个公司有一些客户,希望它在做订货的时候就要占用一些信用信息,不然永远不提货就占用我们太多资源。但是在我们的信用管控体系是无法涵盖的,ERP里无法实施。当然它里面还有其他的一些系统,CRM、Logs等等。我们会通过预算机制把ERP系统里数据实时推送到数据聚合和分析系统上,这个系统里包括所有我们所关心的ERP信息,还有CRM里面的很多数据。有了这些数据以后,就可以进行分析,而得到的结果都是实时的分析结果。

下面的图就是实时信用报告。可以分权限开放给相关销售人员。比如说跟某个客户做生意的时候,我会几秒之内全部调入信息,去做一些决定。产品下订单的人也是类似的界面。这个案例就像Hadoop提供了PB级别的数据存储和处理能力。我更加喜欢强调“处理能力”。红山世纪的领导刚才说了,传统行业很少能达到PB级别,但是TB级别你现在有没有能力去实时处理呢,而在Hadoop上面可以提供这样的能力。而我们就是专门做这样的服务。

第二个案例是传统的BI模型架构。这个架构就是比较简单的,从各个地方收集的数据,例如CRM等等数据,我们可以把它存到一个固定的空间,就是原始数据存储这块。但是这一块很有可能是一个很大的数据库的数据。我们从数据库里面收取一些进行ETL计算。

这里面有几个问题必须要说,第一个问题是这些数据必须得有备份并且要清理,如果到了TB级别数据,我觉得产生一个BI可能至少得需要一个晚上,再复杂的话一个晚上肯定完成不了。所以就无法完成正常的ETL计算。再一个这些BI模型里面,我们给用户回答的问题都是预先设置好的。比如说这几个月销售数据、对比等等。

而基于大数据BI与数据分析架构里面,是把ETL计算跟复杂计算都放在了存储区域,那么几乎可以以实时的方式把运营数据以及很多的非结构化数据给抽象出来,产生报告。这就是大数据在新型BI跟数据分析架构里面所起的作用。

而传统BI模型里面它还有一个问题,就是无法做数据分析。我说的数据分析是很复杂的计算数据分析。如果要是把原始数据存储这一块进行备份清理之后,那么这个存储区域里面存的数据是不完整的。比如清到两年前的数据,那么领导说“要两年前的数据”,你还得恢复。这样时间会更长。像这种问题,我们在大数据BI里面是完全可以解决的。

刚才有人讲了云计算与大数据的关系。我们认为云计算是大数据的基础。大数据也是解决了云计算的一些关键问题。以前云计算经常讲SOA、集成,集成之后就会产生大数据,各种奇奇怪怪非结构化的结构、半结构化数据、结构化数据,不一样的数据、复杂数据都存储在一起,这些东西你如何管理?我觉得通过Hadoop都可以解决。

举个例子,诺基亚在几年前就一直在使用Hadoop,他们部署的中心有伦敦、柏林、北京,使用的都是Hadoop。

云计算与大数据对企业和政府的影响与价值。提高企业信息系统的快速应变能力,降低企业信息系统的部署成本。我从事这个行业有20多年,其中10年帮助国企做信息化方面的建设。去年有一家公司找我,问我“什么样的工作会让你干的时间长?”我回答“这种工作需要长期持续地激发我肾上腺激素的能力。而大数据它的确是能够激发我对这方面的热情。”上也列出了一些主要的原因。现在很多公司没有意识到大数据对我们的影响,我们总是采购特别多的硬件,但是没有真正的应用到它。也有一些企业在面临着真正实际问题的时候,去找一些顾问公司,那些顾问公司可能会给你很多很多建议,你自己都无法分辨。最后有可能实施结果没有真正达到你的要求。那么我们公司可以解决,这也是我们公司的价值。

下面介绍一些应用场景。比如说产品应用分析,比如你想分析而基础数据又庞大,如果按照传统分析模式,你需要很长时间得到结果,而Hadoop不到一分钟就可以。再比如用户行为分析、协同过滤、安全等等。

我们认为大数据的行业应用实在是太多了,这里我也就不一一介绍了,刚才嘉宾也提到了。大数据催生了一个行业,就是图中间的一个数据作为服务的行业。这是非常有潜力可挖的。我的报告就到这,谢谢大家!