DOIT 原创报道 大数据就像一个烫手的山芋,闻着香,但“吃”起来却很棘手。也许你还没注意到,但大数据的应用已经在我们的生活中出现了,尤其是一些互联网公司。但是以记者前几日在京东商城买锅的经验来看,大数据的应用还不太乐观,不那么智能那么科学,前两天在京东买了个电压力锅(用于周末炖肉冬日进补),之后,再浏览任何网页,广告位里全是这款锅的广告,大小贴图,一种阴魂不散的赶脚油然而生……
因为这事儿,记者还曾在微博上吐糟一番,大数据的应用原本是既方便用户选择又利于商家精准营销的双赢,然而,简单粗暴不够智能的大数据却适得其反惹人反感……
那么,作为信息管道的运营商,能否成为一个例外?又是如何对大数据进行运用的呢?
在今天2013中国大数据技术大会(原Hadoop中国云计算大会)上,来自中国移动通信研究院的孙少陵所长,分享了《大数据实时处理技术发展趋势及中国移动实践和展望》,报告很长,但有几点给记者留下了深刻印象,首先是昨天的一个大事,就是工信部对国内三大运营商颁发了4G牌照,这将对移动互联网的发展起到非常大的推动作用,而移动互联网的发展又会产生巨大的数据流量,作为传统的数据传输管道,运营商坐拥海量数据,这对大数据的挖掘和利用具有天然优势……此外,中移动从多年前便开始了大数据和云计算的研究工作,并推出了一款产品,有一个很亲切的名字,叫“大云”,还讲到中移动如何通过各方手段进行精准营销的问题……
中国移动通信研究院的孙少陵
照例,以下附上演讲全文,这里有更多细节:
主持人:接下来的报告原本由中国通信研究院黄晓庆院长做报告,但是他由于有紧急的事情委托孙少陵所长做这个报告,题目是大数据实时处理技术发展趋势及中国移动实践和展望。有请孙少陵所长。
孙少陵:各位领导各位来宾非常高兴有这样一个机会跟业界的专家,包括国外和国内的分享一下我们中国移动在大数据这方面的一些观点,以及我们中国移动的一些实践。这次本来黄晓庆非常想亲自来跟大家互动,但是由于公司有一个很紧急的决策会,他也是让我在这里向大家表示一个歉意。中国移动是全球最大的一个运营商,这里我们其实很关注整个互联网在移动方面的发展。当然从目前来看全世界范围里面IT发展最热门三个词,第一个就是移动互联网、第二云计算,第三个大数据。我们看一下移动互联网目前的发展趋势?正好比较巧昨天是工信部正式向中国移动、中国联通、中国电信三家发布了4G的牌照,也意味着中国正式启动了4G无线宽带的时代。全球移动互联网用户数的增长,应该说非常快,比固定互联网增速高三倍。
第二我们看一下流量增长的情况,移动互联网流量增长的速度也是非常快,到2012年底移动互联网流量占比超过整个互联网13%。实际上再看一个数字这个比较有意思对我们公司影响也比较大,在现代手机端移动通信里面现在出现了一个二八的分布,原来传统概念上手机首先打电话发短信的,但是实际上现在用户使用移动互联网上网的业务和传统的通信业务,也就是我们打电话和发短信这个时间比变成了八比二的关系,移动使用移动通信使用我们手机最主要工作实际上在使用互联网而不是传统的通信业务。这个对于运营商来讲我们直接带来的影响就是说传统上的话,我们通信业务是带来我们价值的一个最大的部分,现在我们变成主要提供流量的一个运营商。从提供流量和从提供话音短信的价值来看这个我们做了一个测算,也就是说移动通信网它的话音投入产出比大概是流量数据投入产出比的5到6倍,所以对移动运营商来说直接的挑战,就是我用什么样方式,弥补我原来在电话和短信上流失的价值。我觉得不管是云计算还是大数据还是移动互联网某种意义上来说给移动运营商都带来了一个机遇,如何抓住这个机遇运营商还需要有很多事情要做。
4G和我们所说的物联网其实这两个东西对整个我们移动通信的数据,它的这种增长带来了非常大的促进作用,首先就是说移动通信4G的带宽基本上可以达到50到100兆,其实不久将来我们诸位在任何地方使用手机,使用移动网络的感觉就跟你在家里使用wifi是一样的。所以说移动通信带宽迅速放大实际上给整个流量的增长带来了很大的推动作用。
第二就是说M2M,物联网这个东西这个概念,某种意义来说把社会信息化触角可以延伸到任何一个角落。某种意义来说通信主体更多是人,现在很多东西包括我们平时在生产过程当中使用的一些装备,包括我们监测交通、监测天气等等这样的话都是有M2M的设备不断的采集各种各样的信息。这里也有一个预测数据就是说到2014年的时候M2M它的这种设备就是这种物联网的终端设备跟智能终端的设备基本上数量持平,某种意义上来说我们谈大数据,其实这两个趋势为大数据带来的一些变化值得大家去关注。
谈到大数据实际上我觉得大部分公司首先想到互联网公司,实际上互联网公司实质上就是数据公司。像百度在前两天我在另外一个会上他们给我一个数据,就是说它的数据量现在大概有一千个PB的规模,每天处理几十个PB,互联网公司在数据利用上面走得很快,它真正通过数据的利用产生价值,颠覆了很多传统产业,某种意义上不是和传统行业在既有商业模式下竞争,通过对数据的把握,数据的挖掘通过变通的方式获取价值。我们对互联网的数据关注比较多。我们有时候忽略运营商和网络公司真正在冰山下面藏有巨大的数据资源。像程学旗老师发布的今年几大趋势,其实大家第一大关注是网络趋势,整个业界正在意识到这一点,我们网络里面有什么样的数据?对于一个运营商来说我们有什么网络?我们有传输网络,有有线和无线的接入网络,我们叫四网协同,中国移动WIFI的数量全国三四百万的水平,wifi每天传输非常多的数据,这些数据是不是有价值,确实我们值得研究值得挖掘,这些数据对我们网络优化,业务创新,精准营销,还有一些决策支持做出一些工作。
电信运营商我们传统提供管道的,正是因为所有的数据流经管道,实际上我们具有很大数据挖掘潜在的能力。对目前来说运营商数据来商业利用主要有三个大方面。一、改善用户体验。二、助力市场决策。三、优化网络质量。用户体验运营商要向互联网学习,运营商都在提供增值业务,就是互联网业务,中国移动有飞信有音乐还有139邮箱等等,我们在传统的产品设计和系统的优化UI交互式的优化方面,其实我们还用一些比较传统的手段,比如说找客户做市场调研之类的。互联网公司我发现他们很少做这个事情,用户每天对你的访问,对你数据里的数据能发掘社会很多的特征,挖掘出他的消费取向,这个为你产品设计带来最真实第一手的资料。这一点运营商也在变化,我们通过对于数据的分析,统计、分析、挖掘来进行我们业务推荐,客服,建立知识库为整个我们产品的创新去提供一些支撑。
第二比较大的方面就是市场的这种营销的一个支撑。我们运营商有几类数据,比如说用户帐号,现在基本上手机都是实名制,实际上用户在运营商登记的帐号信息有你年龄性别等等是比较真实最基础的数据。第二协议类型,这里说协议类型就是指套餐,你使用什么业务,你是使用流量高的还是话音高的,你使用每月消费量多少,其实这里面可以体现出很多东西,比如说你消费能力,一个月消费10块钱和一个月消费一千块钱的用户,消费能力肯定不一样,这种消费能力延伸开了可以帮助你做其他方面业务营销的支撑。还有业务类型,比如说这个用户选择中国移动的游戏类或者说阅读类,音乐类,其实这里都代表他个人一些兴趣爱好,他的一些特点和取向。
第四个访问的URL,用户经常看什么网站?比如说经常看体育类的网站,这里我们就会发现这个用户可能对体育类的产品和相关服务会有兴趣。还有终端信息,因为我们实际上在网络上可以通过各种渠道获取用户在使用什么样的终端。这个终端信息一方面来说对我们自己做业务来说非常重要,因为每个终端的能力不一样,每个终端的特征不一样,就是每个终端适合使用的业务不一样。第二我们中国移动也有自己的终端公司,什么样终端好卖?用户喜欢终端什么样的功能?什么样的特征?对我们自己使用开发终端也有价值。还有上行下行的流量,通过这些数据首先我们可以分析流量,就是说我所有的业务在所有网络当中流量流向变化情况,这里面也许蕴藏一些某种信息。比如说什么地方发生了一个比较大的事件。举个例子前一段时间四川的地震,我们四川那边电话局立马附和飞速的往上涨,流量流向可以通过这个发现。用户行为的分析,他偏好,移动通信有位置信息,地理信息,手机号码是你注册地,我既知道你到底常驻在什么地方,我又知道你经常漫游在什么地方,所以这方面数据非常有意思。第三就是流量一些清帐单的查询,用户对我流量消费非常关注,他希望有详细的上网记录可以查询之类的,这个为了提供用户透明消费支持我们做一些这方面工作。
第三个比较大的方面是优化网络质量,运营商我们一直强调我们服务是电信级,全年我们故障率我们可靠性在五个九,五个九是电信级的标准,意味着一旦这个系统发生故障在几十分钟的水平就是线网的重大故障,这个重大故障就要升级到主管单位进行报告。对中国移动来说我们李锐总说过一句话质量就是生命线,我们实时发现我们网络故障解决我们网络故障是我们很重要的工作。中国移动很大一部分比重员工在做线网的监控,线网监控一方面比较耗人,第二目前网络结构越来越复杂,层次越来越多,一旦发生故障到底出在什么地方很难查找。大规模的数据挖掘其实我们可以帮助我们做网络的故障定位和故障排查。我IP网我无线网送上来大量的日志数据,这个日志数据通过我们模型建立做分析确实对网络运营成本有比较大的降低。在运营商的实践过程当中也就是今天我们要讲的主题,我们对数据挖掘,数据处理,数据分析的实时性我们感觉需求越来越迫切。这里头实际上咱们谈大数据的概念经常说几个V,我们不想老生常谈几个V的问题,根据数据量,数据动态我们总结出来什么叫实时处理,数据的实时处理实时分析到底我们想关注什么特点?在这我们对实时处理有个广义的定义。
第一个实时这种流式数据的处理,数据有动态产生的特征,这是大数据的特点。这种数据动态产生我不能等到批量产生批量处理,我很多数据稍纵即逝跟位置和时间关联性非常强,我必须及时处理,来了数据处理,处理完马上送上去,也许我马上使用,流式处理在解决这样的问题。
第二对于海量数据的快速处理。要实现这种交互式。我们现在有些省公司实际上做整个公司的生产分析的时候不再依赖大家下去花好几天时间整一个报告把数据报上来,而是说它有一套系统,这个系统里面你可以看到当月所有生产的数据,KPI数据,他的收入,用户增量,流失量可以上篡下取挖掘到我每个小区带来多少收入,每个地市、县区、每个基站带来多少收入,流量是多少。这个需要一个快速海量处理。对于大量的IO操作限制了对于交互式的快速反应。现在图计算更多是通过消息而不是通过IO的文件方式做数据处理。像内存式的计算结合很多新的系统,像SLD、CSIO这些东西,可以在这方面做很大提升。
我们内部把云计算和大数据放在一块说的,在中国移动我们传统体系架构里面,我们很大程度上依赖于昂贵商用的硬件和商用的软件,我们现在交易数据库还有分析型的数据库大量使用甲骨文、DB2等商业数据库。使用小型机服务器,像EMC昂贵盘阵的系统。这种架构实际上存在几个问题,第一个在结构化处理能力方面是不足的,在非结构化处理方面不足,第二系统成本非常高,中国移动小机的数量有可能PC数量还高。第三硬件平台的兼容性很差,惠普的硬件跟IBM的系统,像甲骨文的Spark的平台,没有办法做无缝的跨平台。第四个扩展性,传统的系统都是属于TB级系统,支持PB级分析交易能力是有限的。所谓云计算中国移动认为你要把这种商用的硬件尽量用消费级的产品,就是说我们像X86、还有RM等等这样一些PC服务器用它代替,把整个系统的架构改成横向扩展的方式。整个系统上来说我觉得像links开源的系统会使用,会支持上万级PB数据的交互和分析。
在Hadoop正式发布06年9月份之后半年时间我们启动了相关研发工作,在国内介入Hadoop比较早,后面我们也在不断的进行跟踪,也参与每年在美国的Hadoop会议,同时我们在Hadoop社区这种开源社区目前积极提交提案。的确就是说人员有限,所以在这方面实际上我们提的比较早,但是比很多互联网的公司等等我觉得确实现在我们应该说研究上还有一定的差距。为了支持云计算和大数据的研究和开发,目前我们实验室里把这个系统应该扩到一千多个节点,我们从2009年开始基本上我们保持一千多个节点服务器来真正做这种大数据的实际海量和性能这方面的一些考验。
中国移动实际上大云产品,融合了云计算和大数据两方面的工作,大数据方面我们关注不仅是说分析型的产品同时关注交易型的产品。我们分析型产品目前主要基于Hadoop,在Hadoop这块我们目前结合自己需求做中国移动的分支BCHadoop,我们现在把BCHadoop也做了一个开源,在今年CCF的创业大赛上,我们中国移动出的这两道题基本上在中国移动BCHadoop上去进行实现。这方面其实我们在Hadoop基础之上做了CKOO支持这方面加强,做了一个数据仓库,同时我们也做了一个数据挖掘系统,我们BCPDM起步比HAMA要走,应该说它和HAMA特征上各有优势,HAMA在推荐算法比较强,我们PDM主要基于中国移动自己经营需求做了分类规则分类等等的方法,在社区文本挖掘都做了相关算法和工具,在搜索引擎这些我们做了一些工作。
在交易类的产品目前我们在内存的数据库上,内存的KIH还有流式计算,还有分布式的交易数据库等这部分我们都在开发,也在线网做了试点,这方面我们借鉴像淘宝等等互联网公司的经验。我们昨天在中国移动互联网国际研讨会说我们正式发布了大云2.5版本,当时江西公司做了一个应用案例的分享。他们用了大云我们RDM并行分布式交易数据库如何解决我们线网综合查询和终端的精准消息存储的支持。
运营上在大数据的使用上面我们都会做一些什么样的工作?第一个在网络优化方面,前面也说了一些,在移动互联网,或者说宽待移动通信的时代,我们现在很重要的一个线网的需求,就是说你随时要把握线网流量和流向的变化。比如说我们现在2G网络是承载我们目前最主要的这种数据流量,但是2G网络实际上肯定是说它这种数据承载的能力比较差是窄带通信的系统,同时造价很昂贵,现在主要承载我们话音的业务。所以说我们整个系统规划、系统维护怎么平衡我四张网络,LTE、wifi等网络,怎么把网络引到成本最低,价值最高的网络上,实现我们综合价值的最大化。这个要求我们实时对全网百万个以上的基站和几百万的AP进行快速的监控,我要监控每天的变化,有些基站变成热点基站,流量压力非常大,采取扩容或者采取网络参数调整的方式,把流量做一些引导。其实目前我们通常使用的方式把整个一个城域去划成方格,然后定期采集和分析。这里需要工作我首先数据采集要快,这需要用到流计算的技术,这里面有一个细节,可能搞移动专家比较清楚,为了保护用户安全性和隐私性,实际上我们在用户不管是通话还是数据建立过程当中,我没有一直使用用户SIM卡里面的EMC,我们定期分配一个PMC是一个临时的ID,记录你通话某一时段的动作。我这个跟用户或者跟终端不是整个一一对应,过了一段时间网络重新分配这个就变了。为什么我要及时处理,实时处理,流式计算必须保证在整个没有变化的过程当中,你要把EMC记录下来,这个EMC对应电话号码,后续我处理就会精细到每个用户,像数据采集数据合成我们需要一些数据库。刚才专家们提到一些内存,还有高性能分布式计算的技术要把网络的拥塞情况和这种状况尽快形成报告,报给我们运行维护部门。这个主要是我们网络方面的应用。
第二精准营销方面,实际上随着现在在移动通信和移动互联网,现在确实市场竞争很激烈的。现在移动运营商,像中国移动提出来一个微营销,微营销就是要关注你每一个用户的特点。我营销动作要根据每一个不同用户进行差异化。我们基础必须有一个大数据,对用户进行精确的画像,对线网发生动作及时采集快速反映。这里举几个案例,像位置类的业务,我们运营商经常有时候会在某一些营业厅有特定终端的优惠套餐,这样回馈用户的营销活动。比如说有一个用户移动到离营业厅比较近的小区,从我们市场部门希望给用户推送一个消息,告诉你说我营业厅正在做某一个业务的推荐。当然做这个事情的前提你不能没事去给用户推送这些消息,因为现在大家对垃圾短信很反感,所以你怎么知道这个用户对你终端和套餐感兴趣,这需要有后台处理和挖掘的工作。比如说这个用户目前使用终端类型是什么?过往几年使用的终端是什么?某种意义上可以透露这个用户是不是特定某一个品牌的忠实粉丝。还有最近这个用户是不是在网上游览跟这个特定手机相关的网站,所有这些东西其实有可能让我们了解这个用户会不会对三星和苹果的手机感兴趣。同时它要发现这个用户经过我的小区在很好时机把这个消息推送下去,他要走到别的地方这个消息最佳时机就失去了,这是实时分析实时采取动作一个典型的案例。
还有一个案例比如说像有一些用户他经常出差去某一个地方,我们有两城一家的套餐,你定这个套餐整个漫游费长途费没有了,对这些用户你要有识别。这个用户经常到某一个城市,他在机场开机你可以推送一个消息告诉他说这个套餐可以为你省钱。我们还有很多目前新的业务,比如说中国移动去年推出的灵犀,实际上是用户人机对话的系统,某种意义上有点像自动化的客服系统,这个系统用了云识别,实际上后台有一个比较大的数据库,这个需要我们把很多知识结构化,然后在后台能够快速为用户提出的问题找到相关的答案。
还有物联网,物联网刚才我们说了它实际上每天都在送大量的信息,这些信息我怎么快速的处理,快速的形成这个动作。比如说我们在无锡那边做过太湖蓝藻的监测物联网应用,它需要对数据实时的采集实时的处理。中国移动在国内国外开源和标准化方面做了很多工作,就是跟Hadoop相关主要我们现在建立了一个开源社区。最主要原因是什么?运营商在使用Hadoop的时候往往有它自己的一些特点。这些需求如果要通过主线满足的话周期很长的,所以我们希望有些东西我们自己根据我们需求先去实现。我们开源社区目前主要参与单位是中国移动一些合作伙伴,华为、亚联等等这样一些公司。我们首先把一些线网急需的需求在我们自己分支里面实现,同时我们推动主线逐渐的把它默植进去。
最后我们对大数据的展望,其实大数据的未来是机器智能,也就是说目前我们机器更多是解放了我们手和脚,未来怎么样让它更多帮我们思想,这件事情是我们认为真正大数据未来发展终极的目标。现在像谷歌等等他们在dpling做了很多公司,像人机交互、语音识别也是大数据广义的范畴,通过机器来学习知识,把数据形成知识,知识变成智能,真正给我们社会信息化做出推动的作用。以上是我们这边分享的一些观点,不成熟还是希望跟大家探讨批评指教。