大数据与谁共舞?时代命脉之争已现高潮

大数据,可以说是史上第一次将各行各业的用户、方案提供商、服务商、运营商以及整个生态链上游厂商,融入到一个大的环境中,无论是企业级市场还是消费级市场,都与大数据发生着千丝万缕的关系。消费者个人的每一条微博、每一张图片、每一段视频、每一张投票、每一句言论……都在产生越来越多数据;而企业级用户在拓展市场挖掘潜在用户的同时,也会借助海量数据进行决策分析。

大数据与谁共舞?时代命脉之争已现高潮

那么,到底什么是大数据呢?根据IDC的定义,大数据是指为了更经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。

大数据与谁共舞?时代命脉之争已现高潮

大数据现象描述(点击查看大图)

大数据与谁共舞?时代命脉之争将现高潮

快速发展的大数据市场(图片来自IDC)

最为重要的是,大数据对整个基础架构和软件、服务带来巨大商机。根据IDC对全球大数据市场规模预测,截止2015 年,整个市值将达180亿美元。Gartner发布的数据则显示,预计到2015年大数据技术将在全球增加440万个就业岗位。可以说,“大数据”是继 “云计算”之后抢占市场制高点的又一领地。如果说云计算是“平台+服务”的全新商业模式内容和技术环境带来的市场价值的话,那么大数据就是实实在在的价值核心——数据。它将直接决定着企业决策、产业政策、市场动态、应用导向,本身就是一个价值体。

一句话:大数据已经让人美得窒息!这种窒息来自数据带来的无限价值,也来自对未来市场的你争我抢……

大数据既是社会经济高度发展的结果,也是信息技术发展的必然。数据是人类行为过程中产生的符号和特征标识,大数据已经突破了原有的数据范畴,从传统的关系型数据已经发展到了更为复杂而又海量的结构和非结构化数据。

也正是如此,大数据给企业的差异化发展带来了历史性机遇。在基础设施平台上,涌现出了新一轮的基础架构和平台资源争夺战。

众所周知,大数据的挖掘和分析虽然更有赖于上层的分布式系统和应用软件,但在最底层的硬件设施层面,还是扮演着中流砥柱的作用。那么,在大数据面前我们需要何种硬件设施呢?它们与传统的有何区别?

大数据与谁共舞?时代命脉之争已现高潮

大数据的特征

Hadoop和MapReduce等专门针对大数据的技术,要求基础设施能够实现:

1、灵活扩展。支持大型、分布式数据密集型工作负载,工作负载在服务器集群中进行处理和分析;

2、存储经济高效。经济高效地方式满足海量数据存储,而且还需要支持数据压缩、自动数据分层和重复数据删除等智能功能;

3、更快带宽。大数据的传输和处理,对带宽提出了更高要求;

4、更高的安全性和管理性。

大数据与谁共舞?时代命脉之争已现高潮

英特尔Hadoop发行版能在x86平台上提供进一步优化

就目前来说,基础设施还是以开放而又标准的x86平台为主。在该平台上,我们可以着重从计算设备、存储和网络三大层面来进行分析。计算有赖于服务器设施,包括服务器性能、能效和扩展。具体来说,就是指服务器所采用的CPU架构和内存频率及容量、I/O带宽和集群或者分布式计算体现出来的整体能效。存储方面,大数据对存储架构提出挑战。并要求拥有更高的数据传输通道和更低的网络延迟。万兆和Infiniband网络互联也将得到更多应用。

大数据与谁共舞?时代命脉之争已现高潮

英特尔在大数据时代的角色定位

在这方面,我们尤为关注服务器厂商之间的竞争。比如百年老店IBM、甲骨文、EMC、NetApp、戴尔,当然,也包括我们国内华为、曙光、浪潮等优秀企业推出的完整解决方案。不过我们需要了解的是,由于在前两次的IT技术革命中,我们国家并未掌握核心自主的东西,相比之下,更应该注重生态系统和应用软件的投入。

由于IT基础架构在高性能计算、大规模数据中心、乃至近年兴起的云计算发展热潮中,都能提供灵活高效的弹性平台支撑。技术上的成熟、产品上的多样化,在这片市场上的竞争已经陷入了白炽化的程度。因此,平台竞争,已容不下其他新角色,唯有谁强、谁弱的问题,而没有谁先谁后的担忧。

前面介绍的是传统意义上的基础架构平台之争,各个竞争对手都来自老牌的服务器、存储厂商。然而,大数据带来的市场更多的还是来自应用和软件层面。因此,不少传统的硬件设备厂商,在提供服务器、存储设备的同时,还专门推出面向海量数据处理、存储的一体化解决方案。

比如蓝色巨人IBM,曾在去年5月推出了InfoSphere大数据分析平台。该平台主要由BigInsights和Streams构成,前者基于Hadoop分布式文件系统,可对大规模静态数据进行分析,利用多节点进行分布式计算;后者利用内存计算技术对实时数据进行分析。

而甲骨文则推出了集成了硬件、存储和软件的大数据一体机Exadata X3。该产品被设计为能够与甲骨文Database 11g、Oracle Exadata数据库云服务器,以及针对商业智能应用的新的Oracle Exalytics商业智能云服务器一起协同工作。

大数据与谁共舞?时代命脉之争已现高潮

甲骨文 Exadata X3大数据一体机(图片来自互联网,下同)

存储巨头EMC, 推出大数据Greenplum统一分析平台(UAP)。它与甲骨文和IBM一体机或者一体化解决方案不同的是,它可对大数据的认知和分享贯穿整个分析过程,实现比以往更高的商业价值。

同时,我们还注意到该领域出现一种专有化的解决方案,专门针对大数据进行分析的创新产品。最具代表性比如有 Sybase IQ,它是一款面向大数据的高级分析平台,使用了列式存储方式对数据进行分析和查询。另外,随着大数据而出现的“内存 计算”也逐渐进入了人们的视野。这方面颇具代表性的要数HANA和甲骨文的Exalytics,通过将大量数据装载在内存模块中,以更高的内存压缩技术和更快的实时处理,实现对海量数据的更高性能支撑。

大数据与谁共舞?时代命脉之争已现高潮

内存数据仓库Exalytics结构示意图

从这里我们可以看出,不妨将大数据的解决方案看成是“一体化”和“专有化”两个维度,这两个维度又分别体现着厂商所各自代表的产业生态链:一体化往往蕴含着厂商在服务器、存储、网络硬件层面的技术实力和成熟产品的基础上,通过与合作伙伴或者整合基于该硬件平台之上的数据分析工具,实现大数据的“打包式”解决方案。专有化延续着数据库厂商在该领域的独特优势,并通过对海量非结构化数据的智能分析,通过授权硬件平台或者单独以数据仓库形式呈现给用户。

“一体化”和“专有化”互相补充相得益彰,也是当今大数据市场竞争中,表现最为激烈也是最为直接的领域。相比之前谈论过的硬件平台领域,专门针对大数据的解决方案在影响力上来的更加直接。而我们也发现,这种解决方案在目前国内也涌现出了包括联想和华为等一批优秀厂商的产品,尤其是华为今年最新推出的UDS海量存储系统、HVS高端存储以及一体机等系列产品,专门针对大数据应用特点提供解决方案。

大数据,顾名思义其核心是“数据”,如果说基础架构和解决方案是针对大数据的“大”而提出的,那么“数据”则直接体现着的是大数据的精髓和价值所在。

利用“数据”包裹并进行有价值的投送,就成为了目前我们最为常见的各种应用和服务。君不见“天气预报”、“行为分析”、“销售统计”等等,都是利用海量数据进行处理、分析、提炼并以服务打包的形式呈现给用户。围绕数据做文章,在产业链中是直接面向用户并最终产生价值的一环,在大数据的整个生态系统中,也可以说是属于“金字塔”的顶层。

在大数据具体应用和服务提供商方面,就目前来说,主要有亚马逊、谷歌、阿里巴巴、沃尔玛等巨头和大数据服务公司。尤其是亚马逊,它在2009年的时候就开始推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce)。这是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上大数据服务平台。与此同时,亚马逊还提供了数据分析的服务,通过Karmasphere Analyst可视化工作区模块,可实现数据分析和提取。

大数据与谁共舞?时代命脉之争已现高潮

亚马逊Amazon Elastic MapReduce服务套餐(图片截自亚马逊)

搜索引擎巨擘谷歌,则更是与海量数据打交道的“老手”了。谷歌针对大数据推出了BigQuery的Web服务,可实现在云端就对大数据进行处理。该服务可为用户提供高达70TP未经压缩的数据扫描,并快速提交分析结果。从而实现在没有数据中心和数据仓库的情况下,用户也可以通过该平台来实现对海量数据的处理和分析。

大数据与谁共舞?时代命脉之争已现高潮

谷歌BigQuery支持一键分析TB级数据(图片截自谷歌)

作为中国最大的电子商务公司阿里巴巴,其实也在利用大数据为用户提供各种服务,其服务内容主要包括阿里信用贷款与淘宝数据魔方这两部分业务。淘宝数据魔方是淘宝平台的大数据应用方案。通过这一服务,商家可以了解淘宝平台上的行业宏观情况、品牌市场状况、消费者行为情况等,并可以据此作出经营决策。

 类别

 价格

服务内容 

 数据存储  0.12美元(GB/月)  2TB以下
 交互式查询  0.035美元(每GB)  2万条查询/天;20TB/天,下同
 批查询  0.02美元(每GB)  同上

除此之外,华为、联想、沃尔玛也是或者即将是大数据的服务提供商。尤其是对于华为来说,近几年迅猛发展,已经构筑起完整的IT架构平台,推出了专门针对海量数据的存储系统和高端存储系统,也有一体机和IT网络通信产品、方案。在不久的将来,华为势必能担当起大数据服务商的重担。

相比前面介绍的大数据解决方案,这里的服务内容或者说大数据方案,其实更是一种定制化、甚至可在云端提供大数据处理、分析并最终以视觉化界面呈现最终结果,从而为用户的决策提供参考的一个服务流程。

在这个层面的竞争,更多的是基于对市场需求进行服务的竞争,不过这种服务多以现有的架构来执行。虽然目前国内涌现出不少基于大数据服务内容的企业,但相比整个市场而言,大部分还是由国外的几大巨头和一些极具成长活力的初创企业构成。在我们欣喜地看到大数据这块巨大蛋糕的同时,我们也要认识到自己的差距,并充分以市场为导向,挖掘大数据的各种应用需求,并抓住这些需求点抢占商机。

前面我们分别介绍了从底层的硬件平台、基于软硬件的解决方案和面向最终需求的应用服务,其实我们回过头来整体来看,大数据的出现并不是偶然的——大数据是因为人在经济社会中的各种行为特征和基于对世界的认识和改造而产生的各式各类的符号。

然而,信息技术越发达,利用智能设备的人也越来越多,也就是有越来越多的PC、平板、手机等智能设备,而通过这些设备产生的数据和处理的数据,在整个经济社会中的比例会随之增长。根据统计数据,2015年的互联设备数量将达到惊人的150亿台!也就是说,全球平均人手2个智能互联设备。而在这150亿台设备中,人机交互式的(比如PC、平板电脑、笔记本电脑、超极本等等)仅有30亿台,更多的是(120亿台)机对机连接。

大数据与谁共舞?时代命脉之争已现高潮

2015年将有150亿台互联设备

在这种情况下,人机“大战”的规模就更为客观了。交通信号的对各个路道信息的采集、智能城市和社区的视频监控收集的信息、物流、气象、科研等等海量数据,都在通过RFID电子标签和气象卫星、传感器来收集数据,这些数据最终通过数据中心进行数据分析、处理,将结果呈现给不同用户。

大数据与谁共舞?时代命脉之争已现高潮

大数据来源

而作为用户来说,在大数据的产生方面,主要体现在社交应用(包括博客、微博、社交站点等等)。进一步的,在人们的业务应用中,也会涌现出一批批海量数据集,这些数据集有来自于商业目的的行为本身,也有来自教育、科研、公益等行为。因此,从大数据来源的角度来看,人、机、业务都是大数据的重要源头。

自然而然的,人们很早就担心的一个问题“人机大战”不可避免。当然,这种“人机大战”并不是人与机器设备之间的生死较量,而是在未来大数据市场上,谁更占据主体、谁对大数据的影响更大的问题。这种问题,势必会导致“眼球经济”和注意力资源更加稀缺的出现。这样下去的结果就是,全球的人类和互联设备,都被淹没在“大数据的海洋”中,“大数据的海洋”上方的“天气”,并不是取决于“大数据”,而是取决于解决大数据问题的“设备”——基于底层架构和大数据分析处理平台的设备。而“人机”PK将直接演变成大数据与这种“设备”的PK。它们之间力量和地位的对比,直接体现着人类社会的智能化程度的高与低。这种对比走向,俨然成为了一个时代的命脉。而目前来看,时代命脉之争正不断升级……

大数据与谁共舞?你,准备好了吗?