专家博客 EMC认为大机遇源于大数据(上)

本文作者是Mesabi Group首席分析师。 

DOSTOR存储在线2月15日国际报道:根据IDC一份EMC赞助的报告,消费者和企业所累积的数据量预计在未来十年内将增加44倍。很多信息就是所谓的大数据。很显然,大数据需要存储以及企业提供的其他产品和服务,因此我们毫不惊奇地看到EMC将大数据列为它的关键市场之一。现在,让我们分析一下大数据的定义以及它的意义,然后简要的描述一下EMC是如何通过最近对IsilonGreenplum的收购来面对大数据市场的。

EMC对大数据的工作定义就是:"数据集,或信息,它的规模、发布、位置在不同的孤岛上,或它的时间线要求客户部署新的架构来捕捉、存储、整合(到一个数据集)、管理和分析这些信息以便实现企业价值。"现在,这个定义需要一定的时间来消化,因为这个定义符合的是EMC的框架和EMC所想做的事。不过,这个定义覆盖了关键的要素,而且有一定的意义。我们来看看一些实例来更好地理解大数据在真实世界中的广泛分布:

  • 医疗信息–包括医疗图像,比如MRI(磁共振成像),以及电子健康记录(EHR);
  • Web对带宽越来越高的使用–包括Facebook用户目前每周上传的20亿张图片,以及上传到Youtube和其他多媒体网站的无数的视频;
  • 视频监控–这是一个正在蓬勃发展的行业,需要大量的存储,同时需要先进的分析手段来分析图像资料;
  • 移动设备的广泛使用–短信浪潮还不会停止;
  • 智能设备–基于传感器的对信息的搜集有很光明的前景,这带来了智能电网、智能建筑和许多其他智能类型的公共和工业基础设施;
  • 非传统IT设备–包括对RFID(射频识别)的使用以及GPS导航系统;
  • 对传统IT信息的非传统使用–包括将OLTP(联机事务处理)转换成,比如,一个数据仓库,以便应用分析工具、电子发现和Web信息产生工具;
  • 行业专门需求–包括在基因研究、油气勘探、娱乐媒体等领域的高性能计算解决方案;

有人批评说这里没有任何新颖的地方。例如,医疗图像和宽带Web访问已经存在了很长时间。回答是,与大数据相关的变化虽然很可能是程度大小的问题,但是从一定程度上来说,也是形式的问题。程度问题来自于超越我们过去认知的日益密集的使用和更大的规模–PB级的存储。形式的问题则与数据从模拟到数字的转型有关,而且需要用新的途径来挖掘企业价值。不过这里需要记住的一点是,大数据是一个庞大的市场,能够带来"丰厚的利润"。从一个IT企业的角度来看,这就是大数据为什么重要之处。

从一个IT人员的角度来看,信息架构的变化大概经历了三次浪潮。不过,这些新的浪潮并没有取代旧的浪潮,旧的还在发展。现在是三种类型的数据结构一直在并存着,不过有一种类型的结构有可能主导其他类型:

  • 结构化信息–这种信息位于相关数据库,多年来主导IT的使用;它仍然是任务关键型OLTP系统业务依赖的信息;你可以对结构化信息进行排序和查询;
  • 半结构化信息–这是IT界的第二股重要浪潮;这种信息包括电子邮件、办公处理文档,以及许多存储在Web上的信息;半结构化信息是基于内容的信息,可以被搜索,因此它也是Google存在的理由;
  • 非结构化信息–从本来形式上来说,这可以被认为是主要是比特映射的数据;这种数据可以被感知(比如在音频、视频和多媒体文件上看到或听到);许多大数据是非结构化数据,而且它庞大的规模和极高的复杂性要求高级的分析工具来创建或给它赋予一个适合人们感知或互动的形式;

不幸的是,这种分类框架仍然不够完美。首先,现实世界中有无数的复合形式,比如嵌入在Word文档中的图片。其次,虽然"记录"是一个可以适用于数据库的术语,而且许多半结构化信息存储在文件中,但是许多其他信息存在于信息流中,比如视频摄像头捕捉到的图像。此外,许多对象有完全不同的概念。

传统IT架构,包括服务器、存储和网络,是围绕结构化信息而构建的,而且也适应半结构化信息。不过,它们实际上不太适用于大数据所带来的多方面的结构要求、规模和分析需求。

因此,EMC在他们对大数据的定义中强调新的架构,同时这也是他们为什么要收购Isilon和Greenplum的原因。对于这两次收购,已经有许多分析和报道,因此我主要是简要的描述一下这些公司如何体现了我们需要针对大数据的不同架构。

专家博客 EMC认为大机遇源于大数据(下)