数据科学家不用太多 应该让大数据更好用

大数据是热门话题,以至于纽约时报等媒体均宣称大数据时代已经来临。挖掘大数据可以产出洞察力以及利用大数据进行知情决策和行动所需的激励和架构。而挖掘这些金矿的矿工,就是数据科学家,所以这种矿工也被冠以未来最性感职业的称号。但是,今天任何一篇有关大数据的文章最后都不可避免地得出这样一个结论,即数据科学家严重短缺。麦肯锡 2011 年被热议的一项调查就指出,许多组织普遍缺乏这类熟练技能的人才。

但是如何绕开这一瓶颈,让大数据直接为商业领袖所用却很少有人讨论。软件产业此前已经做过这样的事情,现在我们还可以再效仿。

为了实现这一目标,首先必须理解数据科学家在大数据中的角色。目前,大数据就是类似于类似 Hadoop、NoSQL、Hive 以及 R 那样的分布式数据架构和工具的一个大熔炉。在这种高技术环境下,数据科学家充当了这些系统和业务侧领域专家之间信息传递者与中介。

总的来说数据科学家有三个主要角色:数据架构、机器学习以及分析。虽然这些角色都很重要,但是并非所有的公司都需要像 Google 和 Facebook 那样拥有一支高度专业的数据团队。只要能开发出与目的相符的产品,并让技术的复杂性尽可能的低,那么大数据的威力就可以直接交到业务用户手上。

作为例子,我们可以回顾一下世纪之交的 web 内容管理革命。网站曾风靡一时,但领域专家却屡屡碰壁,因为 IT 是瓶颈。每每有新内容添加时都需要进行编排,有时候甚至需要 IT 精英硬编码进去。这个问题后来是如何解决掉的?我们把这些基本需求概括并抽象进内容管理系统之中,然后让它们简单到连不懂技术的人也懂使用。瓶颈于是被打破了。

接下来,我们以网上贸易为背景分别看看数据科学家的这三种角色。

数据架构

降低复杂性的关键是限制范围。几乎所有的电商都关心用户行为的捕捉—活动、购物、离线交易以及社会化数据,几乎每一个电商也都会有产品目录和客户档案。

只要把范围限制到这一基本功能上,就可以为标准数据输入创建模板,从而大大简化数据捕捉与管道连接。在 2/8 原则下(80% 的大数据用例可利用 20% 的技术实现),我们不需要把所有不同的数据架构和工具(Hadoop、Hbase、 Hive、Pig、Cassandra 以及 Mahout)都打包进来。

机器学习

好吧,数据架构似乎可以用系统搞定,机器学习总得要人来调教吧。如果需求是高度定制化的话,也许数据科学家是必要的。这里面的很多事情都可以抽象出来,像推荐引擎和个性化系统等。比方说,数据科学家的很大一部分工作是做出“特征”模式,即把输入数据组合好,让机器有效学习。过程差不多就是数据科学家把数据摆弄好然后塞进机器,再按一下“启动”即可,数据科学家的工作只是需要帮助机器以一种有意义的方式来审视这个世界。

可是如果按照单个领域来看,特征创建也是可以模板化的。比方说,每个电子商务网站都有购买流和用户细分的概念。如果领域专家可以直接将其思路编码进系统,将领域体现到系统里面去,那么数据科学家这个翻译和中介是不是就可以省掉了?

分析

从数据当中自动分析出最有价值的东西从来都不是一件易事。但是提供针对单个领域的透视镜是有可能的—这可以让业务专家做试验,就像数据科学家那样。这似乎是一个最容易解决的问题,因为市场上早已经有了各种特定领域的分析产品。

但是这些产品对于领域专家来说约束太多,不易接近。界面友好性绝对还有改进的空间。我们还需要考虑机器如何从分析得出的结果中学习。这是关键的反馈环路,业务专家希望能修改这个环路。这又是一个提供模板化界面的机会。

正如 CMS 领域的情况一样,这些解决方案也不能包治百病。但是针对泛化的一组数据问题采用技术解决方案可以缓解数据科学家的瓶颈问题。一旦领域专家能够直接跟机器学习系统协作,我们就能够进入大数据的新时代—一个人和机器可以相互学习的新世纪。也许到了那个时候,大数据能解决的问题就能多于它制造的问题了。