本文作者是Mesabi Group首席分析师。
DOSTOR存储在线2月15日国际报道:基于文件的存储–有许多大数据应用程序是基于这样的存储–发展得比基于块数据的存储还要快。IDC预计在所有出售的存储容量中,80%会是针对基于文件的数据。网络附加存储(NAS)经常用于基于文件的数据,但是向上扩展NAS在一些方面有自己的限制,包括可扩展性和性能。向外扩展NAS存储架构克服了这些限制。
例如,Isilon的向外扩展NAS架构使用它的OneFS操作系统,可以在单个文件系统内扩展到10多PB容量并支持最高50GB/秒的吞吐率。不过,大数据应用可能强调某一个维度或涉及到其他数据。因此,Isilon推出专门针对高事务性和IOPS(每秒输入输出)密集型应用的S产品系列,比如针对基因研究的应用,同时该公司的X系列解决方案针对容量密集型应用,比如那些需要处理高并发性和顺序性吞吐的应用,比如医疗图像。
Greenplum专注于大数据所带来的分析上的挑战。它的产品套件支持分析密集型的大数据集,从而最终能够帮助终端用户挖掘数据价值。大数据通常需要复杂的分析,比如互动分析,而不仅仅是结构化的报告。分析的速度尤为重要,因为它需要经常执行,同时在需要进行决策的时候也要进行这样的分析。
不过,传统的关联型数据管理系统并没有针对大数据分析而做过优化。它们针对的是OLTP所要求的小型的随机读取和写入,而不是一个SQL查询可能要求的顺序读取。为满足不同的需求,Greenplum开发了一种大规模并行处理(MPP)系统。MPP系统中,性能和可扩展性是关键要素。Greenplum的新架构可以满足大数据应用的需求。
大数据应用的到来有许多影响,不过它们的一个共同点就是要消耗大量的存储。大数据的科学和工程用途,比如高性能计算(HPC)情境,已经存在了很长时间了,不过现在大数据正在扩展到主流信息技术,包括娱乐媒体、医疗卫生和Web。
新的主流的大数据IT应用倾向于通过机械电子和电子机械设备来捕捉或创建数据,比如医疗设备、摄像机、RFID读写器,而不是通过人体触摸或语音。大体上,这种数据一般来说要比人类创建的信息要更加非结构化,而人类创建的信息会组织成结构化或半结构化信息。
无论是哪种结构,要利用好如此大量的数据以便为决策服务需要新的和更高水平的分析工具。此外,比起传统信息技术,大数据对性能("多快可以处理数据?")和对容量("可以有效支持多少数据?")的要求程度也不一样。应对这些不同的要求需要采用不同的架构。
EMC等公司认为大数据应用是一个很大的市场,因此EMC同时投资于Isilon和Greenplum以便帮助它迎接大数据所带来的机遇。如果一家公司老是进行很多收购,那它很难保持良好的过往记录,不过EMC再一次证明了它能够顺利地处理好收购。EMC能做到这一点的其中一个原因就是EMC珍惜那些通过收购而加入EMC的员工。EMC不仅倾听这些人的声音,鼓励这些人去做事情,而且还加入了自己的专有技能、财务资源和良好的分销渠道,从而能够增强被收购公司的实力。
Isilon和Greenplum是受人尊敬的独立公司。从它们庞大的客户群可以看出它们的技术实力是很强的。大数据客户应该可以期待EMC将在基本技术的基础上继续增加功能,同时这些公司的客户也会认真检验EMC摆到台面上的解决方案。