由中国计算机学会主办、CCF大数据专家委员会承办HBTC2012Hadoop与大数据技术大会于11月30日在北京举行。本届大会以大数据共享与开放技术为主题,设置了Hadoop生态系统、大数据行业应用、大数据共享平台与应用以及大数据的技术挑战和发展趋势等五个分论坛。大会就大数据技术生态系统的现状和发展趋势进行探讨,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。
天睿公司大中华区aster事业部总监孔宇华先生就怎么样让大数据更加地平民化、更加大众化这样一个话题发表了自己的看法。即是在大数据的问题上应用案例落地,怎么让一些比较传统的公司使用大数据是一个需要我们研究的问题。
大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程放慢都需要注意。编程人员有一些Hadoop大数据的方案,他们关注大数据的应用的平台是想可以得到比较灵活的应用;另一方面有一些比较传统的,有一些传统的非技术型的公司,计算机科学人才数量比较少,维护和管理的是DBAs,他们关注的是应用。所以在一个大数据的落地方案里,应用怎么样大众化是需要按不同的企业、不同的行业、不同的社会的需求来定位什么叫做易于使用。
现在讲大数据有四个方面,易用是我们需要关心的。其实大数据在数据仓库里面很早以前就开始做海量的数据,但他们以前是用SQL来分析的,用SQL是比较高层的,但SQL比较容易重复使用,有一些比较麻烦的、比较复杂的Map Reduce程序,SQL就比较容易做出来。但SQL在一些问题的匹配上比较弱,有SQL来表达一些问题比较复杂。SQL在查询优化器做的选择比较低效。因此SQL用UDF来做补偿。第一,UDF不是一个并行设计的框架。第二,跟数据模型的关联很大,很难把一个数据模型搬到另外一个数据模式上。所以现在大规模的互联网公司找另外一些平台。Map Reduce就有一些平台来处理大数据,各位都很熟悉。需要用到Map Reduce,那么在座的各位很会编程和代码的人可以用Hive。还有另外一些像database以前有的,还有一些优化在这里面就没有了。
在考虑轻易地重复使用的、易用的而且能够处理大量数据的应用方面,天睿在4、5年前就在做SQL-Map Reduce的结合。天睿加进一些数据库方面的技术,出发点是在数据库这方面,所以我们已经有很多数据库方面的优化像index等等。之后我们觉得Map Reduce、大数据这方面有很多可参与很好的框架,之后我们把Map Reduce的框架建立在一个数据库上面,应用方面很多传统公司的分析师可以用SQL来访问这个平台,这是一个大数据平台。因为这是一个SQL的平台,很多现成的BI的工具也可以马上地放到平台上使用。
另外一个方面,软件开发人员也可以很容易用到这个平台来写平常的Map Reduce,所以它兼容了SQL的好处,也兼容了Map Reduce的好处。
另外在应用方面很少有传统的公司想写一个Map Reduce的功能包来用。那更好的应用方法是把一些经常用的功能提供给企业、提供给这些人,提供给社会,他们就可以马上利用到功能包,怎么把结构建起来,怎么分析我的数据,因为我们想做到的其实就是,如果我们的分析工具很完善,他们只要想到了怎么分析就可以了。天睿建了50个功能包,让不同的企业和行业做这样的分析。从SQL这方面出发结合了Map Reduce的分析中间是一个路径分析的功能包,如果用Map Reduce来写这个程序可能还会更长更复杂。如果让一个分析师来写他是没法儿想到的。但他用这样一个办法来写的话,又很容易写到,如果他要改也很容易改。因为做数据分析不是分析一次就完了,要不断地分析,分析一次可能得到更加多的信息和问题需要问,所以是重复性的,如果你需要修改一个分析的程序要很复杂的话,分析师的工作就没办法做到了。所以这是一个比较好的方法让他们得到他们需要得到的信息。
对于开发人员,在座的各位如果想写新的功能包怎么写呢?也应该考虑另外一层用户的应用,不能只考虑到分析师也要考虑到开发人员的应用。
现在国内和国外很多的企业都开始知道数据库不是一个完整的企业数据框架,都需要在上面做一些增加接受非结构化的数据,然后在结构化的数据上做更加深的另外一个角度的分析。在现成的数据仓库里面现在看到了比较常见的框架是旁边有一个探索的平台,利用一个平台做快速的结构化、非结构化的数据的探索,做SQL和SQL以外的分析来得到更加大的数据的价值。Hadoop也会在这个框架里起到一定的作用,它可以进行大量的数据的搜集,ETL数据加工、数据储存的作用,可以建立更加好、更加优化的数据平台。
基于这样的平台我们也出了一个方案,它可以结合Aster的数据挖掘平台和Hadoop的一些机器一起联合然后中间有一个比较宽的连接器,可以从Aster到Hadoop,以及通过Hortonworks做访问。而且这种分析不用把整个数据全部地table拿过来,因为我们可以把一些需要的列、行拿过来分析就可以了。所以就大大地减少了数据搬移的需求,只需要把你需要分析的数据搬过来就可以了。
下面讲一下数据分析,刚才我们讲了数据平台的问题,现在我们讲一下应用方面大数据在传统的公司是怎么利用起来和应用起来的,而且他们注重的是什么东西。我们关心的是产品关联。在数据价值方面方面,他们看到的第一是应用,不仅仅是IT人员的角度,也从业务人员的角度看看是不是能接受的。第二,易用的范围是怎么维护的。第三是速度,怎么样让他更快、更简易地得到新的从数据中提取到精华。
孔宇华鼓励在开发新的大数据平台、开发大数据产品的时候要考虑产品的易用。怎么样考虑到用户和后端的人员是哪些人,他们是用SQL的还是做代码的。是要用大数据来解决什么样的问题哪方面的问题,之后再从这个应用的需求方面再推断你需要大数据的平台和技术上的需求。