EMC陶波:大数据带来时代变革

大数据推动产业变革

一个产业界革命性的变革是不经常发生的,需要多种元素的融合,当然也需要很多的运气。这也间接地验证了业内推断,大概每二十年左右IT界会发生一次大的变革。70年代是PC机的时代,进入90年代的时候以雅虎和谷歌为代表的互联网应用改变了人们的生活,机器被连在了一起,人类被连在了一起,我们可以发布信息共享。2010年以后,进入一个新的变革,在企业中发生。在大的互联网企业中,已经被证明成功的技术应用到企业IT中,而企业IT在全球拥有两千亿美元的市场,这样大的市场有新技术融入的时候,新的变革自然而然会发生。

过去的一年中,无论是技术媒体,还是金融媒体,以及众多的分析公司,大家都在谈论大数据。我们在谷歌搜索相关关键词可以发现,2010年的时候搜索 “big data”这个关键词有了很大的增长,到底是因为媒体报道,还是“big data”已经成为生活中的关键词而被媒体加以报道呢?这确实很难讨论,但是我们确实已经生活在大数据的时代。

大数据的来源有多种多样,有动漫的数据,有常见的企业IT应用带来的数据。这些数据需要一个高扩展性的存储空间。存储了这些数据之后需要有一个平台管理数据。同时,能够创造一个平台使得科学家、分析师们一起工作。分析结果出来以后,还需要工具使得公司的决策层执行决策。

大数据的应用

那该如何有效加以分析,并进行合理的使用呢?相信这是大多数用户在了解到大数据这个关键词之后,首先产生的困惑。为此,WatchStor的记者采访了EMC中国研发中心首席技术官陶波先生,请他给我们带来有关大数据给基础架构带来的变革、云计算与大数据的整合以及数据分析等众多领域的看法。

数据分析引发的新要求

EMC收购了小型软件生产商Greenplum,获得了后者可以用于横向扩展和加速数据仓库以及业务分析应用的软件,EMC将其打造成为一个业务分析引擎,用于处理来自在线以及传统数据库来源的大型数据集,围绕Greenplum创建了EMC Hadoop和Greenplum数据库等产品,与Oracle以及Teradata已有的加速业务分析平台相竞争。Greenplum使用大规模并行处理(MPP)Scatter/Gather Streaming(SG Streaming),旨在消除其他数据加载方法相关的瓶颈。采用了一种全面并行的数据加载方法,数据从一个或者多个源系统流入数据库的每个节点中。 Greenplum与大多数主流数据库和MPP设备厂商使用的传统批量加载技术有所不同,后者是将数据从一个来源通过一个或者几个并行通道进行推送,这可能导致瓶颈出现和加载时间增加。

Hadoop包括两个部分:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce编程模型,其中HDFS运行在商用硬件上,它和现有分布式文件系统很相似,但也具备了明显的差异性,比如 HDFS是高度容错的,可运行在廉价硬件上;HDFS能为应用程序提供高吞吐率的数据访问,适用于大数据集的应用中;HDFS在POSIX规范进行了修改,使之能对文件系统数据进行流式访问,从而适用于批量数据的处理。

大数据分析提供深度信息

HDFS提出了数据均衡方案,即,如果某个数据节点上的空闲空间低于特定的临界点,那么就会启动一个计划自动地将数据从一个数据节点迁移到空闲的数据节点上。当对某个文件的请求突然增加时,那么也可能启动一个计划创建该文件新的副本,并分布到集群中以满足应用的要求。副本技术在增强均衡性的同时,也增加系统可用性。

陶波以Hadoop上做流的处理为例,尤其是有横向的接口,它反应的就是说可以只看过去的一段数据,因为传统的数据仓库是很简单的,需要监测所有数据,把所有数据处理一遍才可以得到结论,这显然不现实,因为有越来越多的数据。现在关注的焦点之一就是能不能对过去数据做一个汇总,可以是数据的抽样,也可以是另外一种形式,同时只看过去一小段时间内的新的数据,得出一个相对精确的结论,这个是做大数据上面要求做的事情,这其中有很多可以做的事情,因为大多数企业都不具备这样的能力,一些新的技术进入企业IT里面对它的冲击还是蛮大的,这里面有一个转换的过程。汇总到一起就是:大数据、数十亿份记录、让实时分析成为一种武器的新要求、全面虚拟化环境的出现、自助服务分析以及那些知识型工作者,等等。

大数据带来整个社会的变革

有调查表明,从企业界搜集的大量数据中获得的启示,并将这些启示转化为具有实际商业利益的竞争优势,对当今公共和私有部门机构来说至关重要。

在陶波看来,新技术进入企业IT中必然会带来一定的冲击,因此对于已经具备一些数据分析能力的公司来说,存储系统虽然不需要完全重建,但不可避免地要做出一些改变,例如增加横向扩展存储,甚至BI软件都要发生深刻的变化。与传统数据仓库不同的是,大数据涉及的量更大,而且包括大量文本等非结构化数据的处理。在数据分析方面,传统数据库只能简单地将所有数据处理一遍得出结论,这在数据增长如此迅猛的当下显示是不现实的,而大数据可以对过去的数据进行汇总和抽样,通过对一小段时间内的新数据分析得到相对精确的结论,现在大多数企业都不具备这样的能力。

技术的聚合使大数据分析得以实现,虚拟化已经成为云计算的代表,X86的计算性能也在不断的增加。大量的数据可以被存储,大量的数据可以被处理,这里面“数据的聚合”就是云计算,这些可以成为大数据分析得以成为现实的重要支撑。

那么该如何去进行大数据分析,由谁去进行分析呢?数据科学家就应运而生,陶波认为,数据分析家将是将来最热门的行业之一,大量的行业比如政府、能源行业都需要数据科学家,这些数据科学家要不断的提出关键性的问题、对业务有重大启示性的问题。大多数数据分析家们是单独自己工作的,实际上他们在企业中应该是一个社区,阿里巴巴有一百多个数据分析家,不同的部门都对数据进行分析,共享对于数据的分析以及和数据管理员、企业管理层形成合作性的数据分析。这也是EMC卓越研发集团大力开展和众多高校合作的因素之一。

综上种种,对于大数据这样一个有着2000亿美元的市场,这不仅对众多厂商来说,是一个巨大的机会。对于在整个企业、社会、政府等多个部门的应用中,也会带来革命性的变革。