现在的电脑系统是根据编写程序时,明确要求它们遵循的规则来进行运算的。因此,当一个结果偶尔无可避免地出错的时候,我们可以回过头去,看看电脑是如何得出这个结果的。
比如,我们可以问“为什么外部传感器发现湿度突然大幅上升时,自动驾驶系统会将飞机抬高五度?”今天的电脑代码可以被打开检查,人们可以追踪并理解运算的基础,无论这个基础如何复杂。
但是,有了大数据分析之后,这种追踪就会变得困难许多。算法预言的基础可能会复杂得让常人难以理解。
大数据的“不可解释”性
当电脑根据程序编写的明确要求遵循系列指令,比如IBM在1954年发展的将俄语翻译为英语的程序,人可以轻易理解为什么软件会用一个词代替另一个词。但谷歌翻译在判断英语单词“light”是该翻译成法语的“lumière”还是“léger”时(即描述“光”还是“重量”),却动用了数十亿页的翻译资料。一个人不可能追踪到程序作出最后选择的准确原因,因为这些选择是基于海量的数据和大量的统计运算的。
大数据运作的规模也超乎我们的想象。比如,谷歌分辨几个搜寻关键词和流感的关联是测试4.5亿个数学模型的结果。相对地,麻省理工学院统计学助理教授辛西娅?鲁丁(Cynthia Rudin),为检修孔是否会着火设计了106个预测指标,而且她可以向联合爱迪生电力公司的经理们解释,为什么她的程序优先了某些检查位置。
人工智能界所说的“可解释性”,对于我们常人来说是很重要的,我们总是想知其所以然,而不仅是知其然。可是,如果系统自动生成了601个预报,而不是 106个呢?如果这601个中大多数都不是特别重要,但把它们放在一起,就会提升模型的精确性?任何预报的基础都可能非常复杂。要说服经理们重新分配有限的预算,她该告诉他们什么呢?
在这个情景中,我们可以看到,大数据预报的风险,及其背后的算法和数据集,可以变成不可说明、不可追踪,甚至不可信的黑匣子。要防止这样的事情发生,大数据需要监控和透明,这就要求新的专业知识和机构。这些新成员会帮助社会仔细检查某些领域的大数据预报,会让被数据伤害的人得到平反。
算法师的崛起
在社会上,当一个特定领域的复杂性和专业性大幅上升,因而对管理新技术的专家产生紧急需求时,我们常会看到这些新实体出现。法学、医学、会计和工程学的专业人才在超过一世纪前就经历了这种巨变。最近,电脑安全和隐私专家突然冒起,以保证公司遵从诸如国际标准组织这样的机构订立的最佳操作准则。
大数据会需要新的一群人来担当这个角色。也许他们会被称为“算法师”。他们可能分两类——从外部监测公司的独立实体,或从内部监测公司的雇员或部门——就像公司有内部会计师和外来审计师来检查财务一样。
这些专业人士会是计算机科学、数学和统计学方面的专家;他们会检查大数据的分析和预报。算法师必须中立并保密,就像会计师和其他一些职业现在所做的那样。他们会评价数据源的选择,分析和预报工具的选择,包括算法和模型,以及对结果的阐释。在有争议时,他们会获取得出某个结果的算法、统计方法和数据集。
如果2004年的时候国土安全局有算法师,他就可能防止该局产生一张如此多错误的禁飞名单,上面竟然还有参议员肯尼迪。在日本、法国、德国和意大利,最近都有算法师本可以有所作为的例子,这些国家的人们抱怨说谷歌的“自动完成”功能诽谤了他们,这个功能会根据一个输入的名字产生一系列常见的搜索关键词。这些词基本是基于过往搜索的频率得出的:词语根据概率排列。尽管如此,当一个潜在的商业伙伴或情人上网查我们的时候,我们的名字跟“罪犯”或“妓女”放在一起的,谁能不生气呢?
我们预想的算法师是为像这样的问题提供市场导向的解决方法的人,他们的存在可能减少过分的规范管制。他们满足的需求与会计师和审计师在20世纪早期出现应对泛滥的金融资讯所满足的需求是相似的。汹涌而来的数字让人难以理解。它要求专家以灵活而自律的方式组织在一起。市场的反应是让专门进行财务监察的有竞争力的公司形成一个新兴行业。通过提供这种服务,新型职业提升了社会对经济的信心。算法师可提供类似的信心提升,大数据按说能够并应该从中获益。
打开黑匣子
没有任何简单的方法,可以让我们充分准备好迎接大数据的世界。它要求我们建立新的准则以管束自己。我们实际操作上的一系列重要改变,可以在社会逐渐熟悉大数据的特点和缺点时提供帮助。我们必须设计保障,让新的“算法师”专业阶层可以评估大数据分析——这样一个因为大数据而变得难以掌握的世界,才不会变成一个黑匣子,以一种不可知代替另一种不可知。