大数据:CIO必须掌握的5个须知

开始于部分web服务商所进行的分析大数据的浪潮正在波及到一般企业。这是因为,即使目前条件还不完善,但是为了保持竞争力并维持正常的营业状态,要充分利用大数据。在此情况下,下面本文将介绍企业的情报最高负责人所要必须掌握的有关大数据的5项内容。

第一,形势要求企业,抓紧掌握好大数据。

分析大数据,最初是由google、雅虎及twitter等美国的web服务供应商开始做起来。这是因为上述这些企业有必要最大限度地利用来自用户的信息资源。但是,从目前趋势看,我们认为,即便是一般企业也为了保持竞争力并使企业运营正常进行,将来有一天就要把大数据很好地利用起来。

在美国GigaOM调研主管Jo Maitland 指出美国目前有些企业尽管其企业规模小,但它却拥有大量的数据,比如对冲基金公司就拥有大量的数据。另外,美国的咨询公司McKinsey and Company最近预测,认为再过几年,包括公共机构、健康管理、零售业、制造商圈在内的广泛的各业界通过对大数据进行分析,将会获取相应的财务利润。

提供HadoopLinux发行版的美国雅虎Hortonworks最高技術責任者(CTO)Eric Baldeschwieler也说,目前正在形成一种高潮,要认识到掌握大数据乃是企业的必备项目。这种趋势具有普遍意义,它适用于诸多领域的顾客。这是因为,收集交易信息并对它进行分析,将会使企业更深入地了解顾客的消费趋势走向。因为这些数据除了可以运用于新产品开发和新型服务外,也对用最快的速度来解决今后可能发生的问题,提供方便。

第二,对企业有用的信息和数据,普遍存在于任何事物中。

可能有的人觉得,目前手头里还没有一个最重要的可参考的大量数据;但是,我们可以说,你就可以掌握这些数据的日子很快就会到来。上述Baldeschwieler指出,你所要的大数据,其实不过是通过“收集各处分散的数据而形成”。

比如说,server上的计算机操作日志文件夹(log file)可能就是大数据。Server就会告诉每个人他所要查阅的不同领域的不同部门的内容。通过跟踪这些数据即可知道顾客究竟需要什么。分析操作日志这件事本身虽然很早就有,但是,在新形势下,它将在更高的水平上进行分析,其分析精密度将会进一步得到提高。

与此同时,取自于传感器上的数据也将会成为大数据。最近几年来,有些证券分析师也早已开始谈论那些廉价的感应器如何同网络连接起来,连续发出数据信息,以便了解“物”的流通和消耗过程,即“物”的网络化现象。现在,我们就可以设想一下,这些数据可以来自于车辆、桥梁以及饮料的自动售货机所提供的信息。 美国微软Kevin Dallas指出,IT行业设备的真正价值在于,使它收集数据并对所收集的信息进行分析,以便提高商业效率。

第三,要具备有关大数据的新的专业知识。

美国Forrester Research分析师James Kobielus说,在引进大数据分析系统时最重要的一件事,是要招募那些通晓分析数据工具的使用方法的专业人才。

大数据对实体数据(solid deta)的模型有着相互依存关系。正因为如此,上述James Kobielus又指出,企业必须把企业工作的重心放在数据科学上。关于这方面的人才,我们需要的是统计学挖掘方面以及文本挖掘专业和心理专业的人才。因为,即便是那些熟悉商业智能工具的证券分析师,也未必能具有这些上述技能。

当然,也有可能目前缺乏掌握这些技能的专业人才。据悉,截止2018年,美国具有高度分析技能的专业人才将会缺少14万到19万人。除此以外,还会缺少具有分析并充分利用大数据,高效决策的经理人和证券分析师,其空缺人数将会达到150万人

另外,还有一项必备的技能是,为了保存和分类数据,要具备对所需要的大量的硬件进行管理的能力。前述James Kobielus还指出,管理100台服务器和管理10台服务器是两码事,不可同日而语。我们建议,雇用若干各当地大学和研究所出身的计算机管理人才。

第四,大数据没有必要事前编制。

假如CIO能熟练地掌握一项技术,即针对商业智能数据仓库EDW,制订一套严密的详细计划,那么,对他来说运用大数据将并非是难事。换而言之,大数据的相关法则即为首先收集好数据,而后再考虑如何运用和充分利用这些数据。

而关于与商业智能数据库相关的数据,在收集数据之前,则有必要设计出数据日志来。关于这一点,美国MapR主管销售的Jack Norris认为,它意味着有必要事先掌握所要寻找的对象。他又指出,之所以这样做,是为了防止使数据一般化,从而失去数据。如果自己原来的想法有了变化,那么事后要对数据进行分析,那就为时已晚了。

Jack Norris进一步指出,我们可以把大数据的知识库当做一种废弃物存放地来理解,而必要时可以再拿过来进行分析,有许多企业甚至并不知道需要找什么内容,只有等到收集数据之后才开始明白要做什么。

第五,大数据并不等同于Hadoop。

有不少人认为,大数据即是对Hadoop进行数据分析的平台。而上述James Kobielus则认为,毫无疑问,Hadoop即为多数企业所重视的与企业预算和人才招聘相关的软件技术;但是,企业也有可能最终使用另外一种产品。

美国的法律咨询的大公司LexusNexus最近将本公司的分析平台-HPCC Systems公开。我们要知道LexusNexus这家企业非常擅长大数据分析。而且,美国企业MarkLogic也把自己用于非结构性数据的数据库 -MarkLogic Server,同大数据联结起来。而且最近,比如像服务器系统日志文件,用于对机器所产生的数据进行搜索和分析的Splunk也是目前人气很高的。美国企业Monash Research的Curt Monash也指出,Splunk将有可能可以利用取自服务器系统日志文件的任何一项数据。