Greenplum Chorus问世 EMC完善大数据三部曲

4月18日,EMC在京发布了基于大数据分析的社交平台——Greenplum Chorus。这是EMC首个完全由中国研发团队开发的针对大数据的产品。EMC全球副总裁兼中国区总裁蔡汉辉在新品发布会上表示,EMC有信心在中国市场未来三年大数据业务营收每年翻番。出席本次新品发布,亦是蔡汉辉在加入EMC后首次和媒体进行沟通。随后蔡汉辉透露,EMC在今年下半年还将让Greenplum Chorus开源,以使更多的用户能享受到Chorus带来的好处。

大数据推动业务转型

伴随着云计算、物联网、移动互联网的兴起,大量的半结构化、非结构化数据正在迅猛增长。IDC最新的报告显示,大数据技术与服务市场销售额将从2010年的32亿美元增长到2015年的169亿美元,其年均增长率会是一般IT市场的7倍。同时IDC指出,未来十年数据量会增长44倍,其中90%的数据会是非结构化数据。大数据已经成为企业不得不面临的挑战。

EMC全球副总裁兼中国区总裁蔡汉辉

蔡汉辉表示,EMC在大数据领域的使命,就是引领客户和合作伙伴的大数据之旅,帮助他们利用大数据机遇加速业务转型。EMC会提供解决方案,使用户从数据源获得最大的价值,增强灵活性,并提高效率。“EMC大数据解决方案架构在弹性的、横向扩展的存储平台上,运行特定设计的分析工具,设计可用于处理结构化和非结构化数据,在生产环境中和业务流程平台上提供可付诸实践的洞察力。”蔡汉辉说。

谈到EMC大数据解决方案和其他厂商的差别,蔡汉辉认为EMC是存储厂商出身,数据始终是EMC服务的对象,因此在数据处理上相比更加有优势。此外,EMC将大数据和云计算紧密结合起来,已经开始用云计算的手段来实现大数据的存储和分析等,而目前其他厂商基本还是没有将两者联系起来。

EMC大数据三部曲

EMC是最早提出大数据概念并将大数据作为重要发展战略的厂商之一,因而当很多厂商还在炒作大数据概念的时候,EMC已经能将大数据解决方案真正落地了。蔡汉辉指出:“企业用户只需要三步,就可以实现EMC大数据之旅。”

EMC大数据三部曲的第一阶段就是搭建云基础架构。在这个阶段,EMC提供给企业用户的产品有EMC Isilon和EMC Atmos。其中,EMC Isilon具有超强的横向扩展能力、可靠的安全保护和使用简易等特点,已经被苹果、华大基因、金山软件和浙江省图书馆等企业和单位所采用;EMC Atmos则具有海量、智能、灵活等特点。此外,EMC还提供了Greenplum Database和Greenplum HD,为大数据平台提供大数据分析工具。Greenplum Database主要针对结构化数据,可以分析PB级数据,它具有每小时10TB数据的分析能力;Greenplum HD是EMC的独门“武器”,它可以将非结构化数据转化成结构化数据,然后让Greenplum Database来高效地处理。

EMC大数据解决方案架构

大数据之旅的第二阶段进入数据科学协作和自助服务。这个阶段会出现社交化风潮,并催生出企业中“数据科学家”的角色,成为驱动大数据处理的新兴力量。EMC最新发布的Greenplum Chorus,就是一个社交化的数据处理平台,能满足这一阶段的要求。

第三阶段就是实时决策,支持大数据的应用程序,实现数据货币化。EMC在今年3月收购了Pivotal Labs公司。PivotalLabs的加入,可以让数据集在Greenplum Chorus完善,让企业用户使用类似Ruby onRails(一个使用Ruby语言写的开源Web应用框架)的现代编程环境,快速构建大数据应用。

关于大数据三部曲的践行顺序,蔡汉辉认为不必完全按部就班来做,但是从他多年从事数据处理的经验来看,只有一步步做扎实了,后续的工作开展起来才有信心。

Chorus的四张“面孔”

Chorus是EMC大数据三部曲第二阶段的“主角”。Chorus是由EMC中国卓越研发集团的技术工程师研发的,历时一年半时间。参与开发工作的EMC中国卓越研发集团Greenplum资深研发产品经理庄富任介绍了Chorus的四大功能——个人沙盒、数据发掘、协作分析和开放数据。

“Greenplum Chorus是数据科学的社交平台。”庄富任说,“它具有社交的、开放的、敏捷的特性。”

EMC中国卓越研发集团Greenplum资深研发产品经理庄富任

“个人沙盒”是指Chorus可以实现自我服务配置,它是弹性的,可以按需求扩展,同时能实现自动的数据导入。“个人沙盒”实则是用户独有的数据库,使用者可以在“沙盒”里做任何分析而不会影响到生产线里面的效能。“数据发掘”是对企业数据进行搜索,同时寻找数据的相互关联性,并对大数据集进行视觉化。 在这一功能里,Chorus对结构化和非结构化的数据都能进行搜索。

“协作分析”则是指员工间共享工作空间、代码,并发布和追踪得到的洞察。强调协作要灵活并兼具安全。“开放数据”指为分析提供整合的开发环境,通过对第三方数据的访问提供进一步的洞察,并与领先的分析和视觉化工具相衔接。

为了更好地进行数据挖掘和分析,EMC还引入了“数据科学家”这一概念。庄富任认为,“数据科学家”必须有数学背景,熟练掌握工具,同时熟悉企业业务,然后再对数据进行挖掘和分析。目前,EMC已经培养出了一些数据科学家,并在国外和一些大学合作,培养“数据科学家”人才。

目标百分百增长

蔡汉辉对未来三年大数据业务制定的目标是每年翻番。针对如此高的增长量,蔡汉辉并不认为高不可攀,反而认为这个目标有点保守。“其实2012年相比2011年,我们的目标是要翻三番。”蔡汉辉说。

EMC全球副总裁兼中国卓越研发集团总经理李映

为了实现这样的目标,EMC将在中国推出全新的大数据市场战略:依托核心市场销售和咨询顾问团队,加强行业覆盖;依靠现有3000多家渠道伙伴,重点挖掘培养和开发针对不同行业的二级渠道,包括神州数码、长虹佳华、博雅软件、易通、怡德数码、荣之联、北京月新时代科技有限公司等;依靠EMC的独特优势,比如研发团队立足本土,贴近客户需求等。

EMC中国卓越研发集团最近迁入了新的办公楼——清华科技园。EMC全球副总裁兼中国卓越研发集团总经理李映介绍,目前研发集团有1000多名研发人员。EMC收购Greenplum后,大数据及相关的研发工程师超过100名。

此前,EMC首席运营官帕特?基辛格就评价道,EMC大中华区将在大数据战略中扮演重要角色,Hadoop和Greenplum的很多研发工作就在中国进行。目前,EMC中国研究院下设三个实验室:大数据实验室,云基础构建实验室和云平台与应用实验室,可以说是紧紧抓住了云计算和大数据的机遇。

Chorus研发团队亮相

李映还透露,EMC将会对Chorus开源,其开源版本预计在今年下半年推出,届时任何人都可以下载和使用。业内人士分析,EMC此举有助于扩大Chorus的使用和影响,反过来推动Chorus商业版的销售。