人员配备和培训将是大数据时代两大障碍

许多企业充斥着大数据,这为了解和预测客户喜好和市场发展提供了大好机会。因为在竞争异常激烈的全球经济环境下,拥有正确的信息就意味着拥有竞争优势。

不过这里有一个方面要注意。想成功地驾驭海量信息,公司就需要拥有相应技能的人才能如愿以偿。这些人要知道如何管理数据,建立分析系统,并且帮助解读数据。

EMC公司最近针对数据科学家的一项调查证实了这一点。共有83%的调查对象认为,新技术会增加企业对数据科学家的需求;64%的调查对象认为,现有的人才供应量将满足不了需求。实际上,麦肯锡全球研究所的一项调查预测,在未来六年内,光美国就可能面临缺少14万至19万拥有扎实分析技能的人才这一窘势,而且缺少懂得使用相应工具分析大数据、作出合理决策的150万管理和分析人员。

TechTarget的Beth Stackpole还指出,今天的专业人员队伍虽受过培训,但只会管理传统的结构化数据环境,还没有准备好处理大数据环境以及诸如Hadoop和 MapReduce之类的开源平台。“虽然数据管理团队通常有一套定义明确的专门技能,懂得管理和组织高度结构化的数据,以及在SQL中建立模型、创建报表,但是这些传统技能组合无法很好地运用到大数据环境中非结构化的平面文件数据;在大数据环境中,命令行和NoSQL数据库技术是搭建大多数新兴平台的核心基本模块。”

Hadoop是个Apache开源项目,它由诸多开源组件组成,被设计成可以存储来自多个节点的海量数据,并压缩成一种易于访问的格式,这种格式名为Hadoop分布式文件系统(HDFS)。MapReduce经常与Hadoop结合使用,它是一种编程构件,可用于构建分析功能,以便分析数据。 NoSQL数据库通常处理非结构化数据,包括博客、文档、文本、PDF、视频和音频。

与此同时,企业没必要苦苦寻觅,才能找到应对大数据挑战和机遇所需要的人才。作为由Informatica和Cloudera共同主办的一系列网络播放活动的一部分,我有幸采访了几位身在大数据环境一线的主管和顾问。

比如说,Klout公司的首席技术官兼联合创始人Binh Tran指出,技能组合是这家社交网络评级服务公司在竭力克服的“第一大”挑战。“我们开办公司之初,主要工作就是挖掘分析数据、编制在线文档。要找到拥有丰富实际经验的人基本上很难。我们只好从雅虎和Facebook这些公司那里招人。”Tran声称现在看到更多的大学设有Hadoop和 MapReduce课程,至少在硅谷地区是这样。

Ventana研究公司的分析师David Menninger提到了最近的调查结果;调查结果发现,169位企业主管中超过四分之三的人表示,人员配备和培训问题是将大数据时代充分利用起来的两大障碍。

Cloudera公司的Omer Trajman指出,技能是很缺乏,但形势并非毫无希望。应对Hadoop等大数据解决方案的能力“并非高深莫测,人们可以学会,”他说。仅仅几年前, “只有个别人知道Hadoop”——而现在知道Hadoop的人在不断增多。“我们鼓励企业关注内部拥有的技能组合,注重人员培训。现在有好多人有着合适的背景,可以学会使用Hadoop。企业不仅仅要物色已经学会的那些人、雇用他们……企业里面也有一些人其实能够逐渐胜任这个角色……有好多人能学会 Hadoop。”

下面是有望在大数据时代发挥作用的岗位:

系统管理员:负责集群的日常运作。“他们可能直接或间接地管理硬件部件,确定对额外硬件的需求,并且实际部署硬件。”Trajman补充说,系统管理员的职责还包括监测和配置。“他们还负责Hadoop与其他系统的集成。”

开发人员:负责搭建平台、开发分析应用程序。“他们熟悉工具或算法,他们可能要编程、包装、优化或者部署不同的MapReduce事务。他们将收集和维护不同的代码库,他们的角色类似数据库领域的数据库管理员(DBA)。”

数据分析员/数据科学家:Trajman表示,数据分析员和数据科学家其实属于同一类。这些专业人员运用算法来解决分析问题,并且从事数据挖掘工作。“他们最大的本事就是能够让数据道出真相。Trajman表示,此外,“他们可能拥有某个领域的专长。他们将帮助开发数据产品,帮助开发推动业务发展的数据解决方案。”

数据专员:最终负责收集高质量的数据。“数据专员汇总所有进入企业的数据,并且编成目录。企业里面存在着大量的数据,Hadoop可以将这些数据集中起来。所以,确定上游数据模型,有抽取、转换和加载(ETL)以及数据建模方面的背景,这些都是典型的技能组合和背景。”

Trajman说:“今天许多企业实际上都拥有所有这些技能组合。”