大数据也有“社交圈”?
刘杰 发表于:12年04月23日 09:29 [转载] 至顶网
社交,无处不在,连大数据都有了自己的“社交圈”?
正在“大数据之旅”中有条不紊行进的EMC,发布了一款类似于Facebook的大数据社交和协作工具——Greenplum Chorus,让我们看到了它大数据战略的第二个重要阶段:大数据的社交化。这是什么意思?
事实上,EMC Greenplum在去年提出了针对大数据的“统一分析平台”(Unified Analytics Platform)概念,其中包括三个重要元素:用于结构化数据分析的MPP数据库——Greenplum Database,针对企业级非结构化数据的Hadoop平台——Greenplum HD,第三个就是大数据社交平台Greenplum Chorus。
最新发布的Greenplum Chorus被冠以“中国制造”的头衔,是因为Chorus产品从想法产生、市场需求收集、产品基础研究、后期测试和开发,再到中国和全球的市场推广,都是由中国团队主导的,而且“Chorus是全世界第一个基于协作分析的大数据平台的协作分析平台”,包括个人沙盒、数据发掘、协作分析、开放架构这四个重要功能。
“Chorus”的中文意思是“合唱团”,生动地说明Greenplum C
horus是一个统一协作的社交工具,不仅包括结构化和非结构化数据的处理,而且还有数据平台管理员、数据库管理员、数据库学家、分析师、工程师等等这样一个团队的协作与分工。
EMC“大数据之旅”三步曲
这也呼应了EMC大数据三步曲的第二步——数据科学协作和自助服务,也就是社交化的阶段。大数据让数据科学家与IT、业务部门之间的界面被打破,创造一个可以分享信息和数据分析结果的社交平台,于是Greenplum Chorus应需而生。
注意EMC在这里提出了一个新的角色概念——“数据科学家”,随后这个话题也在笔者的微博上引起了热烈的讨论。在EMC看来,大数据的出现触发了 IT角色的转型,“数据科学家”的出现是一种必然,Ta应该是“具备数学计算北京,懂得数据库支持,拥有商业智能经验,了解企业业务”的人,是数据团队中的“尖兵”。
实际上现在EMC自己已经拥有一批数据科学家,利用EMC的产品工具帮助客户分析海量数据在医疗、卫生、电信、气象和海洋等领域的价值,让数据焕发生命力。
如果说数据科学家、数据平台管理员、业务智能分析师、业务线用户正在形成一个大数据团队,那么Greenplum Chorus就是让这些角色发挥作用的舞台,同时第三方或者合作伙伴也可以整合到这个开放的系统中
据EMC中国卓越研发集团资深产品经理庄富任介绍,Greenplum Chorus已经开始在客户那里进行beta测试,每个星期研发团队都会根据beta客户的需求反馈,跟进提出一个新的版本。
采访中,庄富任举了一个电子商务beta客户的例子,该客户的数据库已经达到了5TB并且在不断增长,高昂的成本使他们无法保存一些如登录记录和消费习惯甚至是微博信息的非结构化数据。在EMC的推荐下,这家电商客户使用Hadoop作为基础存储架构,保存这些非结构化数据的同时并将其转化为结构化数据,二者结合起来利用Greenplum Chorus在进一步做数据分析得到最后的分析结果。
EMC看到了开放性平台的重要性,尤其是对Greenplum Chorus来说,除了提供更广的整合环境之外,能否纳入第三方的数据也十分关键,因此EMC会在2012年下半年通过开源证书发布Greenplum Chorus源代码。
EMC Greenplum数据计算事业部总经理刘伟光表示:“Greenplum整个家族走的是面向开源技术发展的思路,Greenplum Chorus的发布降低了数据分析的门槛,让更多人根据需求挖掘并分析数据。”
昨天的发布会上,EMC Greenplum Chorus研发团队在媒体前的集体亮相。EMC中国卓越研发集团的增长很大一部分也是来自于大数据,例如Greenplun在被收购的一年半时间内,整个卓越研发集团在做大数据相关的技术研究、产品研发、测试以及市场推广的团队,加在一起已经有超过一百名研发工程师在为大数据和大数据相关的工作努力工作