大数据 传统业务不适合新形势发展要求

大数据时代,传统的业务模式已经不能适合新形势的发展要求,一次大变革已经悄然拉开序幕。

在日前举行的2012 Teradata天睿公司大数据分析方案研讨会上,Teradata高级解决方案顾问李向前对记者表示,由于SQL和MapReduceSQL各自的缺陷和优势,二者都无法独立承担大数据分析的重任,综合二者之长的SQL—MapReduce,才是大数据分析的趋势。

Teradata认为,当前非结构化的数据增长更快,每天都产生大量的数据,分析的丰富程度也在增加。因此,大数据的分析,需要一个快速的、简单的、scale—up的分析平台。

李向前表示,首先,在大数据时代,传统的SQL已经不能满足所有的业务需求,一些查询不灵活、不直观或者很难准确表述,且DB系统会选择一个较差的执行计划执行,效率低下。其次,传统的UDF存在一定的缺陷,运算函数非常有限,表函数无法做到并行处理,固定的schema限制了重复使用。第三,大数据分析的需求可能用RDBMS无法满足。

正式由于上述原因,在大数据成为最新挑战的今天,始建于2011年在谷歌执行一个大数据处理的Map/Reduce系统逐渐受到关注。Map /Reduce是一种并行编程模式,定义有Map/Reduce两个函数,并且独立于任何特定的实现。MapReduce可以扩展支持到非常大的数据规模,克服了传统数据仓库扩展性限制和难以表达等问题,已经被很多知名的数据规模比较大的互联网公司使用;MapReduce还提供高效的编程模式,简单、移动,并实现最大程度的并行。

然而,Teradata认为,MapReduce有一个致命的弱点,即非常依赖于编程实现。这意味着,MapReduce很难重复使用,随着新的业务问题不断的出现,都需要重新编码,这无疑加大了使用难度和工作量,也间接增加了企业的投入成本。

李向前表示,弥补代沟的最佳选择是SQL—MapReduce。

SQL/MapReduce(简称SQL/MR)是Aster Data的一个框架,支持当前流行的Java和C预言,用户可以将代码安装在nCluster中,可以在数据库中由SQL调用,系统将自动并行执行。

李向前介绍,SQL/MR以“21世纪的UDF(a UDF for21st century)”为目标,致力于提供良好的可扩展性,友好的分析界面和开发界面。

可扩展性:非常容易让数百台服务器的硬件资源发挥作用;容错性由系统自动处理。

分析界面:分析师可以用类似SQL语言灵活表述;开发人员开发被分析师广泛使用的工具;查询的语义无需与具体的实现方式混合在一起。

开发界面:简单易懂的编程模式;便捷的开发平台服务,开发人员尽可能自由发挥。

Aster Data是Teradata收购获得的资产。为将不同渠道的数据放在一起,并且充分利用传统SQL的作用,Aster Data提供了一个支持行列混合存储的机制,并且结构化数据与非结构化数据可以分开存储,聚合分析,其底层有一个高速互联的连接器。

简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。