专访EMC刘伟光:Greenplum的大数据战略

大数据拥有巨大的发展空间,从各国政府对大数据的政策中可见一斑。美国总统奥巴马推出的大数据发展计划,集合全美最顶尖的专家,将数据转变成商业资产和价值。中国的大数据市场同样毋庸置疑,大数据蕴藏着巨大的潜力和商机。近几年,IT厂商纷纷推出各自的大数据战略,EMC也不例外。

EMC作为一家传统的存储厂商,在全球存储领域一直处于领导者的地位。近日,IT168记者对EMC数据计算产品部大中华区总经理刘伟光先生进行了专访,共同探讨了大数据商业价值和大数据市场空间等一系列话题,并深入分析了EMC Greenplum的大数据战略。

▲EMC数据计算产品部大中华区总经理刘伟光先生

据刘伟光介绍,他于2011年11月加入EMC公司,负责数据计算事业部大中国区整体的运营。此前曾在Oracle工作将近八年的时间,从系统架构师开始起步,后来做到大中国区企业架构团队的高级经理,2010年成为Exadata大中国区产品事业部的总监。刘伟光所在的EMC数据计算产品部门前身是EMC收购的Greenplum公司。Greenplum是分布式数据库的全球领导者,EMC看重它未来的商业价值,尤其在大数据市场的巨大潜力,因此收购Greenplum公司。在全球成立独立运作的事业部,即数据计算事业部。刘伟光作为这个事业部大中国区的经理,主要负责这个产品的在中国整体的业务推广,包括销售、售前、服务、品牌推广等一系列工作。

数据库发展的三个里程碑

谈到数据库应用的发展进程,刘伟光表示,回溯中国大型企业IT建设经历过的十五年,大致有三个里程碑:第一个里程碑是面向交易型的关系型数据库,90年代末到2000年初是中国IT系统建设发展最快、建设力度最广、投资最大的几年。中国IT建设从一个相对落后的阶段,走向一个新的发展历程,越来越多的国外企业进入中国。中国IT系统建设,尤其在电信、银行和政府领域经历了一场大规模的变革。传统数据库一般来讲都是OLTP,即面向事务处理和交易的数据库,通常是支持系统的基本业务功能操作和企业最基本的信息化需求,电信行业建设计费系统、CRM系统、客服系统,银行行业建设前台核心系统,其他行业建设基本的客户管理、营销系统。这种系统的主要功能是存储数据,面向客户提供一些服务,就如同解决人们生活的温饱问题,这种数据库就是支持联机事务处理型的数据库。

第二个里程碑是数据仓库,也可以比喻成IT建设解决温饱问题之后更高层次的需求。在这个阶段,企业的IT运营达到一定的水平,积累了很多经验。企业发现数据是非常重要的资产,但是并没有将常年积累的数据变成指导企业运营的技术基础。在这个阶段,很多大型企业开始建设数据仓库。数据仓库的前身是分析报表系统,即把数据从数据库中抽取出来形成统计报表,但这个报表通常不会对企业运营和决策分析做指导。到了数据仓库的阶段,数据不仅形成报表,还要根据各种主题、企业内部需求进行加工、分析,进而形成决策支撑的数据来源。经过存储数据、挖掘数据、加工数据、展现数据的过程,数据产生的结果成为企业下一步运营和制定市场策略最重要的技术输入。

第三个里程碑是大数据。最近几年云计算如火如荼,云计算和大数据在很多层面都是相辅相成的关系。在这个阶段,随着新技术的冲击和技术手段的推陈出新,以及互联网技术对IT行业发展的影响日益显现。云计算的出现对数据仓库产生巨大的挑战,如何处理传统关系型数据库不能处理的数据,是新技术面临的最大挑战。海量数据与大数据是不同概念,海量数据通常指的是在按照数据库表结构设计处理之后,存储到传统的关系型数据库当中的数据集合。大数据在数据容量上也比海量数据更大。另外,大数据的数据来源非常丰富,数据类型更为繁多,其中包括来自互联网和传统企业的高度信息化后产生的非结构化和半结构化数据,以及不断产生的历史归档数据,这些数据远远不是现在的技术能够快速加载的,而且也不是传统的数据库和数据仓库所能存储管理和分析的。

大数据蕴藏商业价值

现在很多公司都在谈论大数据,专家对大数据都有着各自的看法,刘伟光认为大数据主要包括四个特征:第一,大数据的数据量非常大;第二,大数据有非常复杂的数据来源;第三,大数据有非常复杂的数据结构,并不是传统关系型数据库能够处理的数据集合;第四,大数据的实效比很低,即在单位时间内处理数据的价值是相对较低,但如果能达到快速处理和分析单位时间内的大数据,就将产生无法预期的商业价值。

尽管大数据的实效比很低,往往需要大量计算能力,但是大数据蕴藏的商业价值不可小觑,刘伟光非常看好大数据的市场发展前景。首先从商业价值角度分析,在金融业领域,通过挖掘和分析客户的各种交易信息,可以通过决策分析而最大化的提高企业销售利润。从正面角度看,这种方式可以找到高价值的客户,将相应的产品进行准确的营销;从反面角度看,还可以进行反欺诈分析,降低企业的运营风险。

在电信领域,最常见的大数据应用就是通过对用户信令数据的分析,为漫游用户发送欢迎短信。随着电信行业大数据分析的不断深入,分析用户行为数据进行精确营销将逐步成为运营商新兴业务类型。这种精确营销体现出大数据的一个新特征:低价值转换率,就是要在很短的时间内分析处理大量数据,为每个人提供有价值的增值服务,挖掘潜在商机。除了传统的电信和金融行业,科研机构在大数据领域的应用同样具有广阔前景,科研机构把尘封的数据拿出来利用新的技术进行挖掘分析,解决科研工作中的难题。

EMC Greenplum的大数据战略

目前,EMC已经不再只是传统的硬件厂商,而是通过数据存储,帮助企业有效的管理内部的数据资产,创造更高的商业价值。据刘伟光介绍,EMC一直倡导“数据改变商业模式”的理念,把存储的数据变成一种商业价值,这就是EMC的大数据战略。具体来说包括三个层次:第一,EMC能够提供快捷的、高可用的、能够横向扩展的大数据存储架构;第二,EMC不仅能够处理传统数据库处理的结构化数据,还能支持半结构化和非结构化的数据的存储管理;第三,数据分析。Greenplum承担最上层的面向大数据的高性能分析。

EMC Greenplum统一分析平台(UAP)是EMC Greenplum大数据战略中至关重要的一环。EMC Greenplum统一分析平台结合Greenplum Database 、Greenplum Hadoop、Greenplum DCA、Greenplum Chrous为企业构建高效处理结构化,半结构化,非结构化数据的大数据分析平台。并且客户可以以此平台为基础利用Greenplum行业和数学统计方面的专家,充分挖掘自身数据价值,实现数据资产从成本中心到利润中心的转变,以数据驱动业务。其中,Greenplum Chrous在行业中处于领先地位,它的操作使用习惯非常类似Facebook、开心网的社交模式。通过Greenplum Chrous可以建立数据沙箱,将一定的数据变成一个集合,用户都可以对这个集合利用工具进行处理和分析,共享数据库的分析结果。让这个数据分析和挖掘,不再是专业人士做的事情,并且增加趣味性,各种角色可以进行交互,形成一个数据社交圈。

EMC Greenplum统一分析平台还包括一个重要的方面,就是“数据科学家计划”,它将人的智慧与技术产品相结合。数据科学家不仅需要具有数据本身的知识,还要求有一定的数学建模能力,同时要懂得企业内部的运转流程。所以数据科学家是能够灵活利用各种工具去抓取数据,形成数据集合、数据沙箱,进行快速的实时分析和展现的一种角色,帮助企业将数据变成商业价值。

真正的数据库云平台

EMC Greenplum也被称为数据库云平台。谈到Greenplum与云计算的关系,刘伟光表示,云计算的技术架构中很重要的一个特征就是“分布式计算”,而Greenplum是一个100%分布式计算的数据产品。相比传统的企业应用环境,今天的分布式计算将所有应用都部署在集群上,这个集群完全采用相对廉价的X86服务器,搭建一个可以无限扩展的平台。分布式计算只需增加相应的节点,就能满足业务能力增长的需求;当任何一个节点宕掉的时候,其他节点自动接管业务请求。在云计算的实践当中,在数据库层面实现分布式平台是一个非常重要的一个步骤,它将带给企业的技术变革的重大创新,提供更强有力和可预见的技术基础平台,EMC Greenplum就是这样一个真正的数据库云平台。

EMC Greenplum还采用了很多开源技术,其本身就是基于PostgreSQL开发的,随着大数据的发展,Hadoop也成为Greenplum的工具之一。Greenplum Hadoop与开源Hadoop有着很大的区别,主要体现在两个方面:其一,Greenplum Hadoop对企业的高可用性和安全性有很强的保障机制;其二,传统企业希望购买商用Hadoop产品,以延续使用传统技术的习惯。即使是拥有强大研发团队的大型互联网企业,也希望在某些关键性交易系统中采用商业Hadoop。另外,Greenplum Database与Greenplum Hadoop两个产品的结合度是全世界领先的,结构化、半结构化、非结构化数据能够在这两个产品之间动态的切入。EMC的理念是用数据库技术对Hadoop进行操作,让用户感知不到数据是存储在数据库还是Hadoop中。外部表是解决这一问题的关键技术,与其他厂商采用中间转换工具的方式不同,外部表可以把Hadoop当成Greenplum数据库中的一个表进行操作。

小结

EMC传统存储硬件厂商的身份已深入人心,两年前收购Greenplum的举动被看作EMC完整大数据战略的重要里程碑。随着EMC与Greenplum的进一步融合,Greenplum在数据分析处理上的优势也会日益显现,软硬结合的大数据战略将帮助EMC完成由硬件厂商向整体解决方案提供商的转型。由此可见,大数据改变的不只是商业模式。