移动互联网将成为大数据应用的主战场

2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

大数据分析在移动互联网的应用

▲2013中国数据库大会专题

自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。

当大数据还在被我们冠以新技术,讨论新的趋势的时候,人人游戏已经走在了实践的前列,给我们带来了更多关于移动互联网与大数据相结合的实战经验。人人游戏首席数据科学家 陈继东现场表示:从企业的需要对结构化数据的管理需求,目前是非常成功的IT技术。现在数据不再被删除而是需要被保存下来,除了查询还需要挖掘价值,对数据的处理和分析远远大于数据的查询。但是也面临着诸多的问题:数据越来越大,PB的数据关系型数据库同样非常难处理,对非结构化的处理很难,而且对数据的分析做的并不好,这些都需要进行不断的改进。

大数据分析在移动互联网的应用

▲人人游戏首席数据科学家 陈继东

越来越多的信息能够得到和生活相关的数据,而且都能记录。基础的架构很廉价,能够很好的存储数据。良好的伸缩性强的基础管理架构,云计算提供了很好的架构,基础的管理等等。

大数据分析在移动互联网的应用

▲数据管理发展趋势

大数据分析在移动互联网的应用

▲大数据整体框架

大数据关键技术和工具

从信息生命周期的角度梳理大数据的关键技术和工具。当我们把数据收集之后需要存储,也可以存储在分布式文件系统中,并行数据库中,和NOSQL中,甚至直接在数据库中处理都可以。流式处理和主内存是流行的趋势: 延时性小。

关键技术包括:

大数据分析在移动互联网的应用
大数据分析在移动互联网的应用

Mapreduce VS 并行数据库

MapReduce最早是谷歌做大量非结构化网页的爬取的需求下出现的。数据库和Mapreduce相比的的缺陷是模式不灵活。

大数据分析在移动互联网的应用

•当前并行数据库的问题

–扩展性:需要扩展到上千台节点

–容错性:需要改进容错,更细粒度,更高效率

–灵活性:需要Scheme free的处理,更好适应非结构化数据

–成本:更多开源实现和外围开源工具

•MapReduce类方案的问题(Hive)

–性能:当前为次优的实现,增加索引和查询优化

–实时处理能力:实时加载,实时复杂查询能力

–标准的SQL接口:应用迁移,与DW透明访问

–更丰富的外围工具:OLAP工具,自助分析工具

NoSQL VS SQL

定制化查询 NoSQL很好的方案比Mysql集群要强很多。数据库的趋势是如何做深入的分析,如何将数据挖掘和机器学习并行化。大数据的趋势:线性模型+简单的特征要比复杂的模型+简单的特征要好,现在是一个特征的工程。

•NoSQL的特点

–高可扩展性和弹性, 灵活数据模型, 强容错, 高可用性(牺牲ACID,单记录事务和最终一致性)

–适用于海量数据定制化存储,高吞吐查询(如全属性选择应用)

•SQL的特点

–强大的语义表达及关系表达, 查询处理和优化,ACID, 强一致性

–扩展性和灵活性差,用于高性能查询和复杂分析

大数据分析在移动互联网的应用

▲NoSQL VS SQL

移动大数据应用

人人游戏首席数据科学家 陈继东认为,移动互联网将成为大数据应用的主战场,主要体现在:1、移动大数据核心载体,智能设备普及。2、高宽带引流大数据,手机使用3G和Wifi接入互联网。3、移动大数据聚集地,Android和iOS成为主流OS。4、移动大数据源头和关键节点,移动互联网入口:搜索,移动浏览器,移动应用/商店,移动广告;海量的独立移动应用,对深入分析的需求更强。

通过大数据分析增强用户体验,用户希望采用语音或者手势进行输入,后台对于非结构化海量数据的分析非常重要。因此,数据驱动未来差异化发展,同时也会引发用户对个性化需求。互联网企业和移动互联网企业都在讨论数据驱动运营,以及移动互联网的竞争营销,借助对用户的分析可以做到。

另外。对空间和时间维度的扩展,碎片化也是一个非常重要的特点。数据量更大,维度更高,数据量远超过互联网。包括设备信息,上网方式,种类纷繁复杂。

移动大数据数据的特点

1、数据的核心节点是人而不再是终端、网页或ID

2、数据量更大,种类更多,覆盖更广(时空扩展)

3、更多个性化属性,如用户地理位置,设备属性

4、不受限于浏览器Cookie,数据更稳定长久,更干净准确

5、用户行为数据更碎片化,更实时性

数据的节点是人而不是终端设备,移动互联网中没有cookie,移动的核心节点不再是ID,而是设备,因此确定到某一个人。

移动大数据分析的挑战主要体现在:

1、采集数据补偿

2、大数据实时处理与深入分析

3、用户时空行为模式的挖掘和利用

4、跨应用跨平台跨设备多维数据分析

大数据在移动互联网中的应用

▲移动广告分析的典型架构