数据科学家:21世纪最性感的职业

2006年Jonathan Goldman到商业社交网站LinkedIn工作,那时的LinkedIn还只是刚创业不久,网站注册人数不到8百万,但是很多成员会邀请自己的朋友和同学加入,因此注册人数迅速增加。但是用户要找到已经在网站注册的用户不太容易,比例达不到管理人员的期望值。很明显,有些社交体验缺失了。如同一位LinkedIn管理者说的,“这就好像,你到了会议接待处,结果发现一个人都不认识,你只好站到一边,一个人小酌­——很可能你早早地离开了。”

Goldman是斯坦福物理学博士毕业,他非常着迷于越来越多的用户关联和丰富的用户个人资料。这些原本只能带来一堆杂乱的数据和笨拙的分析,但是,当他开始探究用户之间的联系时,他开始看到新的可能。于是他开始组织他的理论,检验他的猜想,建立模型,预测用户愿意与谁建立联系。他感到,他正在开发的新功能,能带给用户价值。但是LinkedIn的工程师们当时忙于提升网站性能,没有理睬,有些同事则公开表示不看好Goldman的想法:为什么用户想要LinkedIn告诉他们该和哪些用户建立联系呢?网站已经有一个导入通讯录的功能,能导入用户的所有联系人。

幸运的是,公司的联合创世人兼当时的CEO Reid Hoffman根据自己在PayPal的经验,相信数据分析的强大力量,给予了Goldman高度的自主权。其中一项就是,Goldman可以绕开传统的产品发布流程,而以广告的形式把这个小模块发布在网站最受欢迎的页面上。

通过这个模块,Goldman开始了他的试验,用户可能认识一些人,比如和用户来自同一个学校或工作单位, 却还没有在网站上建立起这些关系,如果把这些名字告诉用户,他们会作何反应。他根据用户在网站上注册时填写的背景资料,找出了每个用户可能最想与之建立联系的三个用户,然后定制了一套广告。几天之内,很明显地,奇妙的事情发生了,这些广告的点击率前所未有的高。接下来,Goldman根据“闭环理论”改进了他的推荐方法,闭环理论指的是如果你同时认识张三和李四,那么张三和李四很可能也相互认识。同时,Goldman和他的团队让用户对每个推荐的操作可以一键搞定。

很快LinkedIn的高层开始认识到这是个很好的主意,并将其列为标准功能。从那时起,事情真的开始起飞了。“你可能认识的人(People You May Know)”广告获得了30%的点击率,比其他任何的站内推广广告点击率都要高,共计产生了数百万个新页面浏览。得益于这项新功能,LinkedIn的成长速度大幅提升。

新新职业

Goldman 是一个很好的例子来说明组织中的重要新成员——“数据科学家”。这是非常高阶的专业岗位,要有在数据海洋中寻宝的好奇心和相应训练。这个头衔存在有几年了,第一次出现是2008由 D.J. Patil(本文作者之一)和Jeff Hammerbacher提出的,他们后来分别成为了LinkedIn和Facebook的数据和分析团队的负责人。但现在已经有数千位数据科学家工作于创业公司和成熟的大型企业。他们在行业里的忽然走俏,反应了这样一个现状,企业需要处理的信息正以从未遇见过的规模和渠道涌现。如果你的机构存储了几个PB的数据,或者对于你的生意最重要的信息是表格式的,而不再是行列的数据,或者要回答你最大的问题需要各种分析手段的“混搭”,你赶上大数据时代了。

现阶段对于大数据的主要热情都集中在大数据的处理技术上,比如,使用最广泛的分布式文件处理系统Hadoop,和相关的开源工具、云计算、数据可视化技术。这些突破性技术都是非常重要的,重要程度就不亚于有能力与脑力运用好技术的人。对数据科学家的需求快速增加,已经超过了供给,事实上,人才缺乏开始严重制约某些行业。Greylock Partners是一家投资初创企业的风投公司,曾经投资过Facebook, LinkedIn, Palo Alto Networks和Workday,它非常担忧紧张的人才储备,因而建立了自己的招聘团队,负责给自己投资的公司输送人才。招聘团队的负责人Dan Portillo说,“这些公司一旦有了数据,就需要有人管理数据,发现真知。”

他们是谁?

从大数据中获利需要雇佣稀缺的数据科学家,管理人员面临三大挑战,识别人才,吸引人才,善用人才。和其他职责明确的岗位相比,这三项任务都不那么直接明了。首先,目前没有高校项目培养相关人才,同时,数据科学家在组织中处于什么位置,如何让他们创造最大价值,如何衡量他们的作用,这些都没有公认的标准。

因此,要想挖掘出数据科学家,首先要明白他们在业务中能干什么,其次,他们需要哪些技能?哪些现有的领域会用到这些技能?

数据科学家首要任务是在数据的海洋中探索发现,他们更喜欢用这种方式看待周围的世界。他们要在数字王国里游刃有余,把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析(ad hoc)到持续的数据交互分析。

数据科学家会遇到技术的局限性,但不会让技术阻扰他们寻找新颖的解决方案。当他们有所发现,便交流他们的发现,建议新的业务方向。通常他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。他们会把蕴含在数据中的规律建议给产品经理和主管们,从而影响产品,流程,和决策。

由于这中行当还处于初级阶段,数据科学家常常会推广他们自己开发的工具,甚至进行学术研究。雅虎之前雇佣的一批数据科学家开发出了Hadoop。Facebook的数据团队开发了在Hadoop上编程的Hive语言。很多其他的数据科学家都丰富或者优化了这套工具,尤其是数据驱动的公司,比如谷歌,亚马逊,微软,沃尔玛,eBay,LinkedIn, 和twitter。

什么样的人有能力做这些呢?什么技能让数据科学家成功呢?你可以把他们看成是数据骇客,分析师,沟通高手,值得信任的咨询师,这些东西组合到一起极具威力,也极其少见。

数据科学家最基本最通用的技能是写代码。也许五年后不太会这样了,那时很多人都会在他们的名片上印着“数据科学家”。一个更保值的技能是用所有相关方面都能听得懂语言进行沟通,另一个是用数据讲故事的特殊能力,通过口头表达或者视觉效果,或者两者都有。

但我们觉得,数据科学家占支配地位的品质应该是强烈的好奇心,想要深入问题内部的渴望,找到最核心的问题,提取成清晰的结论,并要经得起检验。比如,我们所知道的一位数据科学家,他研究的是欺诈问题,但他发现这个问题和DNA排序问题非常类似,在融合了两个完全不相干的世界之后,他和他的团队找到了一种能大幅降低欺诈损失的解决方案。

现在你大概清楚了为什么这个新兴的角色会被称为 “科学家”。比如实验物理学家,同样也需要设计仪器,收集数据,反复试验,并最终展示结果。因此,很多公司寻找能处理复杂数据的人才,可很多招到的不错的人才都是有物理或社会科学领域的学习和工作背景。有些最好的最有前途的数据科学家是研究复杂科学的博士生,比如生态学或者系统生物学。George是硅谷Intuit公司的数据科学团队的负责人,本身是天文学博士毕业。更普遍的是,当今业界许多数据科学家毕业于计算机科学,数学,经济学,和任何数据和计算密集型的领域。