针对中国企业的大数据需求旺盛与应用落后之间的矛盾,Teradata天睿公司大中华区大数据事业部总监孔宇华日前对话DOIT记者,基于Teradata在数据仓库、数据分析领域经营30多年的领先经验,分享了释放大数据大价值的最佳实践,为中国企业的大数据之路提供了可以借鉴的选择。
孔宇华表示,随着非结构化数据的引入,把有价值的东西提炼出来变成一个难题,通过一个能够囊括不同数据源、数据类型和不同分析方法的数据探索平台,快速整理一些“小数据”进行分析,不断试错找到价值点,能够以最少的开支,让企业业务人员快速、有效地获得数据的精髓,从而实现业务的创新。
Teradata天睿公司大中华区大数据事业部总监孔宇华
中国企业的迷失
大数据似乎已成为中国企业超越同行或者打翻身仗的秘密武器。湘鄂情毅然决然剥离经营已久的餐饮业务,试图在陌生的大数据领域东山再起;美的空调扬言要斥资150亿元,基于云、大数据和物联网技术打造智能家居业务;王健林宣布豪赌50亿元,指望借助大数据将万达电商打造成新的帝国;康师傅也希望耗费巨资构建大数据平台实现集团食品业务的升级……
这一串名单还可以列得更长,但喧嚣的背后,却是大数据应用的落后。除了互联网公司出于自身特质具有立足于数据价值运营的思维和技术,更多的中国传统企业在数据的运用方面可谓一塌糊涂,国外的《经济学人》声称:中国的企业目前远没有实现网络化和数字化,更没有参与云计算和大数据分析等趋势。
客观地说,传统企业经过多年的信息化摸索,确实有了一些数据的积累,部分企业也已经开始基于数据展开营销工作,但数据开放程度低、数据共享难、数据处理技术基础薄弱、大数据人才稀缺等,也是不争的事实,这些制约了国内大数据的发展。据中央财经大学中国经济管理研究院博士张永力估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长;我国2012年大数据市场规模大约4.7亿元,2013年达到11.2亿元,更是处在初级阶段的初阶阶段。
Teradata的行业应用
作为一家全球大数据分析和数据仓库解决方案厂商,Teradata已经赢得了超过2,500家客户的信任,在多个行业表现卓越,广为人知的沃尔玛“啤酒加尿布”的案例,背后其实就是得益于Teradata分析工具的驱动。Teradata希望将其国外的实践经验引入中国,帮助中国企业更好地利用大数据创新业务,同时实现自身的价值。孔宇华介绍了Teradata在国外电商、医疗、高科技制造、零售供应链等不同行业的应用案例。
在电商领域,Teradata基于收集的电商客户行为的半结构化数据、非结构化数据,包括客户的浏览、搜索和购买记录等,以及产品的关联分析,在客户最喜欢浏览的页面做产品推荐,以实现更好的交易量。这样的分析过程,传统的分析方法很难实现。孔宇华表示,其中的一些路径分析、关联分析,需要用到新的分析方法来实现,Teradata Aster平台里已经集成了这个分析方法和展现的工具。
在医疗行业,Teradata通过数据分析帮助美国医院实现更好的治疗效果。针对同一疾病的不同客户,按照他们的住院时间、接受的治疗、他们所在的地区等不同参数进行细致的分区,去验证最有效的药物和疗程。这样的分析,让医生可以有效、更好地调整自己的治疗方法,让不同地区的医院在医疗方式、医保的方法、护理的流程等方面相互借鉴,从而让医疗系统更加有效地运作。
在高科技制造业,如高精度芯片的制造,可用比受到不同步骤的不同参数变动的影响,如气温、湿度、不同的物理元素等。Teradata做了一个理想的方案,通过一些统计方式,用根源识别方式的自动化,针对整个流程进行可扩展性大数据的分析。通过一些程序自动化,把大量的时间序列进行数据简化,最终简化到一个数字代码,然后进行对比。通过这样的分析,可以把大量的芯片制造的数据放在Teradata的平台里,去做监控、优化,然后找出关键的参数,反馈给生产部门去做监控。
针对零售行业供应链,Teradata通过对全局供应链数据及不同门店客户消费记录的整合与分析,配合气候、天气等相关数据,去预测每一个商店的产品需求,据此调度整个供应链,以减轻库存和盈利的压力,不必要的促销活动因此得到减少。
Teradata的技术特色
如前所述,这些应用场景都是在一个平台上实现的,这就要求Teradata不断改进其技术,以适应不同客户的更多需求。事实上,Teradata正在通过加强自主研发、吸纳开源技术、并购、在离客户最近的地方设立研发中心和吸引互联网人才等方式,加强大数据平台和服务的实力。
孔宇华介绍,Teradata Aster探索平台可以汇集不同的数据源、结构化的数据、非结构化的数据,并汇集很多不同的分析方法,如SQL分析方法、MapReduce、关联分析、路径分析、文字文本的分析,全部结合在一起,让数据的价值更加容易把控,并且能够很快地完成数据分析的流程,从数据获取、数据准备、分析、大数据展现,都很快地做迭代。
Teradata Aster大数据探索平台
能够做到这一点,得益于Aster与Hadoop不同的架构。Hadoop在HDFS 文件系统之上用MapReduce/YARN做运算引擎,决定了它的局限。而Aster独特的底层数据库存储,上面有不同的运算引擎,包括SQL、MapReduce、文本、关联分析、图分析等,再上面是SQL接口,这使得Aster成为一个分析的“瑞士军刀”,能以一个SQL界面支持不同的分析工作。孔宇华强调,真正分析的时候,50%-60%会用到SQL,这就提高了编程速度和运算速度。要知道,传统企业不可能像互联网企业那样,有很多既懂编程又懂数据的人。
Teradata Aster新增的一些特性,主要包括一个SNAP Framework框架,Aster File Store文件存储系统和Teradata Aster R。其中,SNAP可以理解成存储的存储系统和分析系统之间的一个框架,上层提供一个统一的SQL接口,用户可以统一用SQL去访问。下层除了以前数据库的行存储之外,加上列存储,以及一些文件存储的方式。这就要说Aster File Store,它支持根据不同文件、不同数据的模板的需求而分配,需要分析的时候还可以直接从Hadoop里面去拿数据。
最后是Aster和R的整合,增强了Aster的应用方式,也规避了越来越流行的R的一些缺陷。R原本是一个单机的算法,Aster把R的运算引擎压进去,然后把数据整合也压到Aster平台里面,把它变成了并行式演算算法。因为Aster本来有一个机制,能把一些R里面的需要并行的算法自动并行。
此外,Teradata最近还收购了两家公司——Revelytix和Hadapt,旨在在Hadoop上面去更好地做整个大数据架构。Revelytix有很好的源数据管理的技术,在Hadoop上面做R分析的时候,会做很多数据的抽样,这会产生很多版本的数据,一个数据抽样可能只能做一样的分析,每次的抽样都要管理,而Revelytix能够减少数据的重复。Hadapt则是在Hadoop上面建立一个数据仓库,利用他们的技术来完善可以Aster上面的一些功能,包括和Hadoop的一些结合。
事实上,Teradata的统一数据架构,就是会用到Hadoop最实用、最成熟的一些模块,去做大数据的处理平台,做数据的一些转换和收集,通过一个叫做QueryGrid的工具,可以从Teradata或者Aster里面访问其他的平台,从而让客户可以更好地利用Hadoop和其他的大数据平台更好地整合起来,打破数据孤岛,做到更好的数据共享。孔宇华还透露,随着Storm和Spark开始成熟,实现一些流分析的应用,目前Teradata也在做相关的研究和应用。
Teradata的实施心得
CIO们都知道,好的技术也需要好的实施路径,才能帮助企业更好、更快地实现创收。然而企业的具体业务千差万别,通用的路径并不存在。“在大数据要做创新的时候,很难说我这个题目肯定出一个结果,创新是一个试错的过程。”孔宇华指出,大数据的分布,极少数有大价值,大部分有一定的价值,还有一部分没有价值。
不断试错找到大价值,这必然要涉及到系统的搭建、时间的耗费和平台的投资等。Teradata的出发点,就是通过平台、咨询团队的经验,从一开始的大数据、非结构化的数据,通过淘金的方式把金子淘出来,做一些分析,做数据分享。Teradata想要做到的,是在Aster平台和Hadoop平台上面,实现“大数据从小做起”这个概念,怎么用小量的投资、用很短的时间,去呈现数据里面的价值。
除了平台之外,Teradata认为,大数据项目也需要适当的人员技能和流程制度。技能其实也和平台有关,例如Teradata Aster,客户如果本来有一些SQL或者R的分析人员,可以给他们建立一个比较小的Aster平台,然后用Hadoop做一些比较简单的数据收集、数据存储的工作,大部分的数据挖掘、数据价值的发现,在他们比较熟悉的平台里面去做,不需要另行引进新的专业人才。
从整个流程方面,Teradata建议,要从业务部门开始,定一个哪怕比较模糊的目标,而不是脱离业务去搭一个平台。孔宇华表示,有了目标,虽然不知道中间的路怎么走,但能够大概知道所需要的数据,这就可以从分析层面不断试错,从简单的数据分析、到路径分析、关联分析,将成果展示给业务部门,一般不可能一蹴而就,但把框架搭建起来以后,就可以很快地去调整每一个部分的内容,从而更快地把一个大数据项目做好。