大数据所带来的商业机会被越来越多具有技术前瞻性的厂商所重视。商业利润的分布也有了很大变化,据市调机构测算:今年预计总价值50亿美元的大数据市场目前有44%的份额来自服务类产品,31%源于硬件销售,而软件支持则占去了另外25%。这导致传统的IT企业凭借多年的技术积累和客户资源在向大数据领域转型,这个市场也为具有独特解决方案或服务的新兴公司带来了超越前者的机会。
像IBM、惠普、戴尔这样的传统硬件厂商,依靠在软、硬件这样的优势,逐渐向客户提供端到端的解决方案。除了加强自身的研发力度,更在大数据的潜在科技突破点上攻城略地,广泛的合作、兼并动作频频。2010年EMC通过收购Greenplum正式进入了数据仓库市场。并在次年推出了支持大数据分析的下一代EMC Greenplum统一分析平台;同年IBM收购了数据分析公司Netezza,开始拓展商业价值方面的市场;惠普对 Vertica进行收购;去年10月,甲骨文发布了新版NoSQL数据库企业版,这是运行于Hadoop 之上的大数据软件之一;微软宣布与Hortonwork公司建立新的合作伙伴关系,后者致力于Hadoop开发。为了增强非传统数据分析的能力,Teradata收购了Aster Data公司。新兴的大数据企业如雨后春笋般涌现。ClickFox、Cloudera、1010data以前名不见经传的厂商迅速崛起,以“大数据即服务”方案力争在未来庞大的市场需求依靠自身的创新为客户创造出独特的价值。
现在我们扫描一下主要厂商在大数据领域的布局状况:
IBM提供BigInsights、BigSheets和BigCloud
仅仅几年前,IBM开始在其实验室尝试使用Hadoop,但是它在去年将相关产品和 服务纳入到商业版,甲骨文和微软在其之后才宣布各自也将积极接受该平台。IBM在去年5月推出了InfoSphere BigInsights软件。该软件包包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBM BigSheets,后者是一种基于浏览器的、使用电子表格隐喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的数据。
IBM随后又在10月通过其智慧云企业(SmartCloud Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。这项服务分基础版和企业版;卖点就是客户不必购买支持性硬件,也不需要IT专门知识就可以学习和试用大数据处理和分析功能。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起。
Oracle:数据库+大数据机
Oracle的大数据策清晰而直接。NoSQL数据库和Big Data Appliance组合为客户直接拥有处理非结构化海量数据的能力。甲骨文大数据机(Oracle Big Data Appliance)将甲骨文-Sun分布式计算平台与Cloudera的Apache Hadoop发行版、Cloudera管理器管理控制台、R分析软件的开源发行版以及甲骨文NoSQL数据库结合起来。甲骨文还包括连接件,因而让数据能 够在大数据机与甲骨文Exadata或传统的甲骨文数据库部署环境之间来回传送。甲骨文为这套综合的软硬件“工程一体化系统”提供了一线支持;但是即使出 现棘手的Hadoop难题,甲骨文也可以利用Cloudera的专长,它还可以介绍客户使用Cloudera的Hadoop培训和咨询服务。
大数据机通过全机架(full-rack)配置,每个机架配备864GB主内存、216个处理器核心、648TB原始磁盘存储容量,以及节点之间每秒40千兆的InifiniBand内部连接。软硬件总计售价将达到45万美元,每年收取12%的软硬件支持费。这个价格颇具竞争力,相当于每TB不到700美元。
微软:面对开放的悬疑
微软在去年推出了基于Azure云平台的测试版Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本的一部分。微软宣布推出了两个基于Hadoop的大数据处理的社区技术预览版连接器组件,一个用于SQL Server,另一个用于SQL Server并行数据仓库(PDW)。该连接器是一个部署在Linux环境中的命令行工具。
SQL Server Hadoop连接器在微软大数据之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是开源技术,这意味着微软要对开源世界大规模地敞开胸怀,这一点值得用户关注。另外,微软还宣布将推出LINQ Pack、LINQ to HPC、Project“Daytona”以及Excel DataScope,这些产品都将专为研究人员和业务分析师打造,用以在Windows Azure上做大数据分析。
EMC:单一的数据分析平台
Greenplum在大数据方面有43000万美元营收,目前由EMC公司所有。EMC Greenplum统一分析平台(UAP)是一款单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析,没必要在不同的孤岛上工作, 或者在不同的孤岛之间转移数据。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus,而后者是一种协作式、类似社交网络的界面,可供数据分析团队处理,无论团队成员是有博士头衔的数据科学家、数据集成专家和商业智能分析员, 还是数据库管理员和业务部门的用户及管理人员。
EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和 Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。UAP软件将数据访问、管理和工作流统一起 来,并与其他数据源和数据处理方法联系起来;随着Hadoop平台日趋成熟,预计分析功能会急剧增加。
亚马逊:深入了解用户需求
早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),对Hadoop的需求和应用可谓了若指掌,这包括了运行试点项目的新手,内部部署的预置型系统遇到需求过载的难题,或是利用弹性MapReduce来获取额外容量的专业人士。
弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。除数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。Karmasphere提供了可视化工具,以便使用SQL及其他语言,针对在亚马逊S3、亚马逊弹性MapReduce作业流或本地文件系统上的结构化数据和非结构化数据,执行即席查询和分析。用户还可以提取结果文件, 以便在数据库或者微软Excel或Tableau等工具中使用。
SAP: HAHA内存计算技术加速计算
SAP基于内存计算的高性能分析应用软件(SAP HANA)将构建一个公开的平台,开放给不同领域、不同行业的合作伙伴,联手合作伙伴共同运作,让更多用户通过HANA得到真正的收益。国内一家快消品企业完成9500万条信息的数据分析在采用新的SAP内存计算分析技术后,响应时间仅需四秒钟。目前,SAP已与包括英特尔、IBM、惠普、戴尔、富士通、思科等在内的多家伙伴达成合作共识。
Sybase:用SQL数据库应对大数据
Sybase并没有推出类似Oracle的NoSQL数据库功能,但是据了解,他们在最新版本的数据库中,已经将大数据提到了一个非常重要的位置。在Sybase ASE 15.7当中,新增的一个重要特性就是对大对象(LOB)的管理增强,包括LOB压缩、行内LOB、复制机制以及LOB的读取与运算方面都进行了特别的改进。LOB中包含了非结构化数据,因此Sybase ASE 15.7新增的这些功能都使得DBA在应对大数据时更加轻松。
另外在他们的分析数据库Sybase IQ 15.4中,还添加了如MapReduce API、对预测模型语言的支持、集成的Hadoop以及扩展数据挖掘算法函数库等功能。很明显,这一系列新特性与大数据的关系密切,是新版本中最大的亮点。
Informatica:不拒绝任何格式
Informatica推出的HParser是一种针对Hadoop而优化的数据转换环境。软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而 多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业 的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功 能,不久会添加其他的数据处理代码。
Informatica希望能够借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。这家公司的企业客户超过 4300个,它估计10%以上的客户正进入到大数据领域(大数据的容量超过100TB)。市场地位和技术创新使得Informatica成为值得关注的一家Hadoop专业厂商。
Cloudera:提供Hadoop的企业安全
Cloudera公司自2008年以来就一直致力于将开源Apache Hadoop打造成一款供企业使用的可靠平台。这家公司有100多个客户,不过鉴于Cloudera最近与IT业界老大的数据库供应商甲骨文结为合作伙伴,今年其客户数量有望大幅增加。
Cloudera为其Apache Hadoop软件发行版增添了两个重要部分:一个是用于控制和管理Hadoop部署环境的Cloudera管理器控制台,另一个是企业级支持。 Cloudera管理器提供了基于向导的安装和配置菜单,以便部署Hadoop。另外,它还提供了一些工具,帮助系统管理人员监控平台的运行状况、诊断问题、优化性能,以及在配置和安全方面作出所需的变更。
Cloudera支持服务分每天8小时每周五天或每天24小时每周七天这两种,服务包括配置检查、问题逐级上报和解决、与第三方系统集成以及知识库、文章及其他技术资源。除了现有的这些服务外,还有培训和咨询服务。Cloudera 企业解决方案包括Hadoop软件发行版、Cloudera管理器及支持,标价为每年每个节点4000美元(不包括硬件)。
Datameer将商业智能运用到大数据上
Datameer公司宣称其Datameer分析解决方案(DAS)是一款面向Hadoop、针对企业用户的商业智能(BI)平台。但是DAS并不将Hadoop当作信息孤岛:它可以通过JDBC、Hive、HTTP或其他标准,连接到任何数据源。它包含了一个由向导驱动的集成平台,让用户可以安排调度负载,并且转换来自任何这些数据源的庞大的结构化、半结构化或非结构化数据集。用户可以通过类似电子表格的DAS界面,运用180多项分析功能中的任何一项功能。企业用户可以获得拖放式报告和仪表板功能。DAS可以在私有云或公共云上运行,而且有一套代表性状态传输(REST)应用编程接口(API),用于数据导入和导出。
由于众多厂商的积极推动,大数据在各个领域正发挥着重要作用:
医疗保健/流行病的研究和控制
像流感这样的季节性疾病在人群中以一定的模式开始,如果没有及早发现和控制,它们就会传播到更大的区域。这对发展中以及发达的国家都是一个最大的挑战。当前绝大部分时间的问题是人们之间的症状各异,而且不同的医护人员治疗他们的方法也不同。人群中也没有一种常见的症状分类。在这种典型的非结构化数据上采用大数据分析将有助于地方政府有效地应对疫情的情况。
智能电网:
智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励使用太阳能,家庭安装太阳能装置后,除了供自家使用,还可以把多余电的电卖给电网。智能电网通过收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来两三个月时间,整个电网大概需要的用电量。有了这个预测,就可以向供电企业提前购买电。这有点像期货,提前购买会比较便宜,这个预测一方面可以降低采购成本,另一方面可以使供电单位应付原来不可预知的用电高峰。
传媒广告:
广告业通常包括两类数据:一类是广告库,即广告内容信息和广告客户信息,这类信息很适合传统数据库;另一类信息是用户看到广告之后的行为。经历长期累计,会产生几百万亿用户行为。这两种数据可以相结合,经过计算机的智能算法就能产生价值。显然第二种信息更重要,因为它能给用户提供想要的信息,比如搜索一个词,可以利用所有用户在他之前、在他之后的群体智能、群体行为,判定哪一类的信息最重要、最优质,哪一类信息可能是无效或非正常信息,然后经过反馈机制把最好的内容提供给用户,甚至推荐相关的一些搜索、查询信息。总而言之,对任何企业来说,数据是命根子;对大数据处理就是数据中心或云计算存在的理由。
制造企业:
制造业算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有时十分危险的)的人为干预,最终提升产量。在先进的“数码化”油田,仪表不时读取有关井口状况、管道和机械系统的各类数据。这些信息由一组计算机进行分析,并将结果输入实时运营中心。后者则调整油量以优化生产和最大限度缩短停机时间。一家大型石油公司因此减少了10%~25%运营成本和员工成本,产量提高了5%。
电子商务:
eBay将结构化数据和非结构化数据 结合在一起。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析。体现在广告收入上,通过该系统,eBay能 够精确计算出每一个关键字为其带来的投资回报。通过对广告投放的优化,eBay 产品销售的广告费降低了99%,顶级卖家占总销售额的百分比却上升至32%。