在一个依循雁阵模式发展的国度中,创新的动静总是惹人注目。不仅是美国,也是中国。
与云计算商业模式众说纷纭不同,大数据在相当程度上,业内已经达成共识,不可逆转。Hadoop日趋庞大的队伍足以证明这一点。10月美国举办的Strata+Hadoop World的Hadoop顶级会议上,近百家IT企业捧场,数十种最新技术亮相,无一例外将平台对接,技术延展,大数据分析工具作为了重点。当时,微软宣布了百分百兼容Apache Hadoop的的大数据解决方案,分别为HDInsight Server for Windows Server以及Windows Azure HDInsight Service。微软技术院士David Campbell评价其可以帮助习惯于使用Excel、PowerPivot for Excel及Power View等工具的用户,迅速抓取分析用的数据,实现智能分析。
图 微软亚太研发集团首席技术官 孙博凯(Prakash)
两个月后,在北京举办的TechEd 2012 微软技术大会上,微软亚太研发集团首席技术官孙博凯(Prakash)详细介绍了微软的大数据解决方案,其可以快速从数据库中抽取三个类型的数据:结构化数据,非结构化数据(视频、地图、图片等)和流式数据(各种传感器、自媒体如微博等来源的数据),并在此基础上帮助数据实现统一的管理与分析。在他看来,对于大数据应用而言,一个重要的方向就是:打通SQL-MapReduce之间,不同数据仓库,不同来源数据流动的通路,让数据,尤其是结构化数据以外的半结构化数据和非结构化数据,可以在各类数据库和数据仓库上统一,真正为数据分析师、运营团队、管理层等数据使用者服务,实现真正透明的底层技术,指导营销方向,进行决策支持。
支持Hadoop,发布HDInsight,只是微软的第一个动作。大数据,注定是一个浩大的工程。
大数据:管理、丰富与洞察
在此工程中,孙博凯认为有三个必要步骤:即数据的管理、丰富和洞察。为了加深理解,孙博凯利用美国汽油和汽车销售车型之间的对应关系来举例。“美国油价比中国油价波动大很多。油价持续走高时,节能型车型如混合动力车销售就高,油价降低时,高耗油车型如SUV就畅销。从不同的曲线中,汽车厂商通过不同数据量化销售状况,获得洞察力,提前作出生产安排,竞争中占据更多优势。”
图片说明
不过,要实现大数据的普及,需要众多企业的合力来完成。事实上,IT产业链和生态系统上各方力量从来没有像现在这样重视相互的合作关系,也从未如此紧密合作过。正如孙博凯对CSDN所表示的:“微软日益开放。作为公有云平台,Azure更加拥抱开源。很多开源技术如PHP、MySQL、WordPress都可以在Windows Azure上运行。Hadoop方面,我们已经和Hortonworks通力合作,而对于一些初创企业,尤其是在工具设计及垂直行业解决方案的企业,微软也希望他们可以成为Windows Azure平台的伙伴。不止如此,Windows Azure平台还有支持Mobile Services、Media Services等服务,如Streaming to iOS,IE浏览器以外也提供着更多其他浏览器的自由选择。另一方面,微软的技术也已经回馈开源社区,ODBC Liver和Entity Framework(LINQ)。相信以后,还会有越来越多的开源技术出现在微软的Azure平台上。”