运营商对大数据的商业智能的利用是怎样的考虑。目前运营商实际上是一种传统的企业。因此基于大数据的商业智能运营商有什么样的想法,中国移动通信研究院业务支撑研究所所长孙少陵基于大数据的应用和研发的实践为大家做了精彩的演讲。
中国移动通信研究院业务支撑研究所所长孙少陵结合中国移动自主研发的大云的系统,首先全球的数据量是在高速地增长。信息也逐渐变成了企业的战略资产,比如说企业越来越多地需要应用后台的数据进行用户行为的分析和进行市场决策的支持,以及做一些网络优化等方面的分析。
同时为了满足政策法规的要求和国家对信息管制的要求,需要保存和采集大量的数据。所以,数据量的增长应该说对于所有企业尤其是包括像运营商这样的企业是一个目前正在发生的事实。
大数据对目前的信息产业带来了非常大的潜在的机遇,对大数据来说我们面临什么样的机遇和挑战呢?
首先,孙少陵认为在网络这个时代,实际上运营商是处在一个数据交换中心的地位。随着互联网的发展和越来越繁荣,运营商的管道可以抓取世界大部分的数据,尤其是用户在使用数据和信息的行为等方面,这些实际上都体现在运营商的平台中采集的到大量的日志的信息和流量的信息,这些信息存在着大量商业利用的价值,怎么样利用这里存在着不光是技术上的问题还有法律上的问题。
所以对运营商来说这么大的数据给我们带来了什么样的机遇?
首先,改善了用户的体验。传统上来说,运营商在做业务的设计、做用户体验优化的时候,可能更多地做一些市场调研等事情。实际上,随着大数据的产生人们发现用户每次的点击行为,都可以采集到用户对业务的偏好,他的一些行为特征。基于这些行为特征可以很好地改进产品的设计,可以在现场进行推荐和咨询,或者是采用外呼的方式。如果通过数据分析和挖掘,可以把外呼的范围缩小的话,实际上某种意义上给我们运营成本会带来很大的节约。
第二,优化网络质量。实际上运营商的网络现在是越来越复杂了,作为中国移动的一个移动运营商来说,我们有无线接入网,现在有2G、3G、WiFi,未来还有LTE。当然还有其他的业务平台,所有的这些系统实际上这种网络优化是一个非常复杂的事情。现在对于网络优化的实质性要求也非常高,一旦比如说我们的基站出现了故障,必须在非常短的时间内进行定位和修复。这种大数据为网络优化带来了很大的潜在的机遇。通过端到端的网络质量的分析,对一些故障的发现很快可以进行网络的优化和故障的定位,所以这对我们来说是非常大的机遇。
第三,助力市场决策。随着互联网公司对于某些传统电信业务的进入,市场竞争越来越激烈。通过业务资源和财务多方面的综合分析,让领导进行快速的市场决策,这在市场竞争中可以形成不对称的竞争优势。所以,这实际上对运营商来说也是非常大的机遇。
最后,刺激业务的创新。很多的专家提到数据实际上是有很大的价值,有很多的公司渴望能得到运营商手里握有的大量数据,对运营商来说是一个潜在的机遇。未来,会基于这些信息来推出一些新的业务,形成运营商新的竞争力。当然,大数据,这么多数据给BI系统带来了很大的挑战,所有运营商的状况都差不多。说的是中国移动的情况但比较具有代表性。首先商业智能系统是分散建设的,因为运营商一般是两级结构、甚至是三级结构,有总部、有省、有地市,这些分散很难进行资源的共享。比如说专业系统上,我们有一些专业系统。同时这些系统可能分级建设。
一方面造成了资源的重复建设,应用的重复开发。同时有一些数据科学家和分析人员的专家资源也没法儿形成共享。
第二,数据分散存储标准化程度比较低。因为目前不同系统的建设主体是不一样的,尽管集团有统一的数据模型的标准,但实际上最终实施的话多少有一些差异。所以数据模型不统一,造成了跨系统的综合分析非常地困难。
第三,目前运营商大部分是以数据仓库为商业智能的核心,传统的数据仓库采用的是小基加盘阵高性能一体机的建设,所以建设的成本是非常高的。目前整体来说,运营商的商业智能是以处理传统的划单、日志这些结构化数据来设计的。对新型的比如说互联网还有一些上网日志等一些新型的数据,包括一些图像等非结构化数据,目前的BI是没有能力处理的。
最后,主要是对内部提供服务的,实际上没有考虑对外进行商业利用的事情,这对运营商如何解决用户隐私保护的问题也带来了很大的挑战。从运营商的商业智能大数据的初步架构来看有一些不成熟的想法。
首先,未来我们的商业智能系统会逐渐地走向移动化,从现在的两级架构变成了全网一级。同时,实现数据模型的标准化,把各系统的数据进行统一的处理,把很多的详单数据进行统一处理。这样的好处是首先通过集约化实现数据的标准化。
第二,通过数据集中化来实现各系统的综合分析,同时也有利于快速地进行数据分析和决策支持。因为现在很多的数据应该说是在二级、省内或者是地市系统里。现在如果从公司整体来说做数据分析和决策支持,往往是需要省公司定期地提供一些汇总数据。所以这实际上对分析的实时响应还是存在一定的问题。集中化的商业智能系统首先面临着海量数据存储的压力。集中化的商业智能系统一方面面临着数据规模大,数据处理复杂,同时不同类的用户存在着混合负载的问题。
首先从数据规模上来说,我们预测到2015年的时候,结构化的数据是需要3.7P,非结构化数据是4.4P。这是保守的需求,我们数据存放的时间是非常短的。但正像前面所说的,有很多的数据是企业的战略资产,有很多的互联网公司对这类数据是永远不删除的。实际上运营商未来数据存储的容量需求应该还是不断地扩大的。目前我们采用的传统的数据仓库成本还是很高的,目前公司扩容的压力还比较大。
第二是数据处理的复杂性。目前我们面临着很多新型数据的处理,包括非结构化和半结构化的数据,所以这方面是需要引入新的技术来进行处理的。同时,还需要对结构化和非结构化数据进行混合深度的数据挖掘。最后是混合负载的多样性,传统的数据仓库和我们的商业智能的应用大部分是属于固定应用,属于报表类的应用。目前以数据仓库为核心的架构现在还不能满足业务要求。
这就决定了,应用开发实际上跟下面的平台是没有办法非常完美地优化和设计的。
对潜在的几种技术做了分析,包括传统的数据仓库,指通过小型机加盘阵的高性能的硬件,也包括了软硬件一体化的新型的数据仓库。我们都归为基于高性能硬件的数据仓库。
第二种是新型的基于X86的数据库。第三类是Hadoop分布式系统。从复杂多表关联分析这方面来看,目前关系型数据仓库这方面会有更的优势,因为通过这种索引和分区建的技术保证多表关联的效率会比较高,而Hadoop目前缺少高效索引,因为现在我们无法支持次级索引。
关系型数据仓库是为结构化数据处理,当然很多的数据仓库目前跟Hadoop相集成提供一些非结构化数据库的处理能力。但关系型数据仓库是不支持非结构化数据的处理的,而Hadoop的能力非常强。
实时相应有关关系型数据仓库和X86的通用平台都有比较好的整体优化,Hadoop目前的优化比较少,所以实时性这块差一些。而且做单相查询的性能是比较好的。
第三,在数据的ETL采集预处理的环节,我们会尽量多地采用Hadoop和分布式ETL的方式,提高数据转换的效率,同时降低成本。
最后,考虑到运营商实际上是比较庞大和分散的组织架构,我们公司对商业智能的需求也是比较多。所以,前面几位专家提到的,我们把云计算的概念引入到大数据里面,未来形成一个商业智能的pass平,这个平台会实现平台建设和数据存储的集中。但应用开发可以让各个省公司和地市公司自行进行应用开发。上载到平台上分析出结果。这可以很好地解决平台集中化和应用需求分散化的矛盾。