EMC销售部全球CTO:大数据不是炒作

现在,大数据这个话题甚至比云计算还要火。EMC公司副总裁、销售部全球首席技术官Patricia Florissi博士认为:“目前,我们对于大数据能够带给人们什么样的利益,能够在多大程度上影响人们的生活和工作还没有一个深刻的认识。现在,我去亚马逊网站买书,绝不会只买一本书,而会根据网站的推荐信息,购买其他一些我感兴趣的东西。这就是大数据时代给人们生活带来的新变化。”

大数据需求真实存在

大数据是一场变革,它不仅影响了人们的生活、工作,更重要的是影响了人们思考问题的方式。很多人认为,大数据的主要作用就是帮助厂商更准确地了解消费者的消费行为,比如买了某个品牌手机的用户通常会再购买另一个品牌的衣服。其实,大数据的功用远不止这些,大数据将在很大程度上影响人们的决策和行为模式。

Patricia Florissi告诉记者:“通过与客户的交流我们发现,很多客户现在并不明白大数据到底能给他们带来什么样的价值。但是不管客户现在是不是理解大数据的内涵,绝大多数的客户面对大数据不会袖手旁观。许多企业内部至少会有一个部门或一个人在做与大数据相关的事。”

云计算刚兴起的时候,很多人热衷于讨论云计算是不是一种具有变革性的创新技术,是“新瓶装新酒”还是“新瓶装旧酒”。大数据是不是也存在类似的问题呢?云计算改变的是IT的消费模式,大数据则改变了我们工作、生活和思考问题的方式。Patricia Florissi认为,大数据不仅仅是数据量大,而是代表了三个新的趋势:第一,海量数据改变了人们看待事物、看待数据的角度;第二,因为有了云计算,人们有能力部署更大规模的存储,具有更强的处理海量数据的能力;第三,人们已经具备了一定的知识和技术水平,可以进行大数据分析。

Patricia Florissi举了印刷机的例子。印刷机是15世纪发明的,但是印刷机的大量商业化应用却发生在其后几百年。印刷机刚出现时,虽然有能力快速印制出很多书,但那时会读书、写字的人并不多。随着人类文明的进步,人们掌握了更多文化知识以后,印刷机才真正有了用武之地。大数据处理和分析也会经历这样一个发展过程。大数据出现后,如果人们没有足够的存储空间和存储能力,那么就只能把大量的数据删除;如果人们有了足够的存储能力,但是没有分析数据的能力,那么大数据也没有价值可言,就像面对大量的金矿石,却无法从其中提炼出金子一样;如果有了存储能力和数据分析能力,但人们本身不具备解读数据的能力,那么也无法挖掘出数据的价值。“现在,我们已经拥有了存储能力、数据分析能力和数据解读能力,因此大数据应用对我们来说并不是虚幻的,而是真实存在的。”Patricia Florissi表示。

实时处理能力更重要

很多人一谈到大数据,首先会想到非结构化数据的处理。IDC的统计数据表明,非结构化数据已经占数据总量的80%~90%。因此,处理多样化的数据成了许多用户关注的焦点。但是有的存储厂商认为,再过一段时间,用户就不会再关心数据到底是结构化的还是非结构化的,因为数据实时处理才是大数据处理的关键。

Patricia Florissi认为,用户对数据实时处理的需求正变得越来越迫切。人们对数据实时分析的关注度已经超越了对数据本身准确性的关注度,这正是数据量激增带来的变化。“如果用户只拥有少量数据或数据样本,那么数据的准确性对于用户来说是非常重要的;如果用户面对的是海量数据,那么数据的准确性就不再那么重要,因为大量的数据可以弥补数据准确性的不足。”Patricia Florissi表示,“数据的价值是有时间性的。比如,我今天拿到了一张商场的优惠券,明天就可以用这张优惠券去买一条裙子,而几周或几个月以后,没人会再理会这些信息。”

EMC现在就拥有这样的技术和能力,可以找到非结构化数据中的一些结构化特征,这样就可以把针对结构化数据的某些分析方法和分析技巧用于处理和管理非结构化的数据。

存储可变形

在即将举行的EMC World大会上,EMC将发布其“软件定义存储”(SDS)的新产品。不过,在新产品正式发布之前,Patricia Florissi拒绝向记者透露产品的技术细节。

Patricia Florissi认为,SDS将颠覆现有的存储市场,软件定义网络(SDN)将颠覆现有的网络世界,软件定义数据中心(SDDC)将颠覆现有的数据中心市场。这些变革将汇集成一股强大的力量,颠覆整个IT市场。

“软件定义”的意思是智能从硬件转向软件。以手机为例,使用者会根据自己的喜好在手机中安装不同的应用软件,因此每个人的手机都是不同的。“软件定义”赋予了手机一种新的能力,即灵活地通过软件来定义硬件配置的能力。另一个例子,以前用户如果购买了多台网络设备,就不得不动用人力对每一台网络设备进行配置,不仅费时费力,而且不管如何改变设备的配置,网络设备的基本功能也不会被改变。用户如果采用了SDN,只需极少的硬件,就能将网络设计成自己需要的样子,让网络设备具有用户想要的功能。硬件就像是一块胶泥,它可以按照用户的需求,经由软件被塑造成各种形态。

“从存储的角度看,以前存储设备分工明确,文件存储只能存储文件,块存储只能存储块数据。SDS的概念出现后,用户就可以在一个统一的存储平台上,对所有的文件、块数据、对象数据进行统一存储和管理。”Patricia Florissi表示,“存储虚拟化只是SDS的一个子集。通过虚拟化技术,用户可以分别构建文件的虚拟存储池或块数据的虚拟存储池,而SDS构建的是一个全面的数据池,可以把用户需要的不同功能分配到不同的软件层面中去。”

存储管理包括控制管理和数据管理两方面:控制管理决定数据存储在哪个信息块中,而数据管理的任务是以尽可能快的速度把数据迁移到一个合适的地方,这是两种不同的功能。在软件定义的存储中,执行控制管理功能的那部分硬件将变得越来越不重要,它只是一种便宜的存储介质。因为专业化的数据需要以非常快的速度来存储,所以在数据管理层面,硬件的专业化要求越来越高。

Pivotal是新起点

2013年初,EMC与VMware合资成立了一家专注于大数据与云计算业务的公司——Pivotal。该公司的成立有利于EMC进一步推动其大数据整体战略的落实与发展。Patricia Florissi表示:“EMC今后将把重点放在存储与数据管理上,云计算、大数据和可信计算将成为公司的三大战略核心。为了满足云计算和大数据的应用需求,存储必须在灵活性、经济性和可用性方面有进一步的提升。”

具体到大数据的处理,EMC更关注如何对存储进行扩展,包括横向扩展与纵向扩展,同时还要考虑信息在不同的存储层级之间快速、安全的移动,使信息移动最优化。用户还应该着重考虑如何对大数据进行备份和归档。除了大数据的概念以外,现在业界还在热烈讨论一个新概念——快数据,其目标是以极快的速度处理海量的数据。为了提升数据处理的效率,数据的处理和分析工作应该无限接近数据,也就是在数据产生地进行数据处理。

Patricia Florissi归纳说:“在大数据方面,EMC与Pivotal分工明确,Pivotal主要做大数据分析,而EMC的核心业务是大数据管理。”