书荐:《人工智能:改变世界,重建未来》

计算机的那只红眼睛能洞悉一切,它目不转睛,也不眨眼。说话的语气从容平静。

“嗨,”它说,“我们还要继续比赛吗?”

它指的是那天早些时候开始的棋局。但是你真的没有心情继续这盘棋,这不是因为计算机总是赢你(尽管这是事实),事实上,你之所以恼怒,是因为它犯下了一个令人费解的错误,这个错误与重要机器的关键部件可能出现的故障息息相关,甚至关系到你能否继续生存下去。尽管计算机坚持称这些部件已经出了故障,但你亲自检查后,却发现它们依然处于良好的工作状态。现在你想知道真正的答案。

“是的,我知道你发现它们还在正常运转,但我可以向你保证,它们将要出故障。”计算机一边说,一边试图用那种惯常的、毫无情绪的声音安抚你。

你感觉自己已经怒火中烧了。

“够了,根本不是这么回事,”你气急败坏地嚷道,“这些零件完全没有问题,我们在百分之百的过载条件下进行过测试。”

“我并不是质疑你的话,但是这的确是有问题的。”计算机继续说道。

随后它又说了6 个字,你知道这些话是对的,但这绝对不是你现在想听到的话:“我不可能出错。”

影迷们可以很快发现,这是斯坦利•库布里克(Stanley Kubrick)的经典电影《2001:太空漫游》中的一幕,讲的是有意识的计算机流露杀机并且企图杀死太空船中全部船员的故事。

多年以来,这曾是我们看待人工智能的方式:它是一种若隐若现的威胁,但只安全地存在科幻小说中。

但现在已经不再是这样了。

今天,人工智能的梦想早已走出了影院与科幻小说,进入了人们的现实生活。人工智能可以驾驶汽车,交易股票,仅通过观看视频网站YouTube 就能学会施展复杂的技能,在不同语种间任意切换,它比我们更加精确地识别人脸,以及创立原始的假设从而发现治愈疾病的新药。而这仅仅是个开端。

3%e3%80%81%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd-%e7%ab%8b%e4%bd%93%e5%b0%81ss

《人工智能》讲述的是人工智能的进化之旅及其对人类的意义。在阅读这本书的过程中,我们将遇到假装有娈童癖的计算机、会跳舞的真空吸尘器、会下棋的人工智能以及旨在与死后的人进行对话而被上传了个人意识的计算机。

这是关于我们如何设想未来的故事,以及在一个充满技术的世界,我们在面临计算机智能不断加速发展的情况下如何为人类塑造自己的角色的故事。这是一个关于创造性的本质、未来就业以及当所有知识成为数据并且可以电子存储时,即将发生什么的故事。当我们制造的机器比我们更加聪明,我们将要做什么,人类现在还具备什么优势,以及你和我是否也是一种会思考的机器。

1950 年,英国数学家和计算机科学家先驱人物艾伦•图灵(Alan Turing)曾预测,到20 世纪末,“词语的使用与一般的教育主张将发生巨大改变,届时人们谈论机器思维时,不会有人对此进行反驳”。

就像许多未来学家对技术的预测一样,图灵对未来非常乐观,但并不过度乐观。在21 世纪初期,与“智能”相关的技术以及“机器学习”已经是很常见的话题,而这些概念在图灵时代曾使许多人感到匪夷所思。

如今,人工智能作为一门学科已经诞生60 年,它依然是人类最重大、最具雄心的项目:努力建造真正的会思考的机器。随着时光的流逝,技术人员离实现这个目标越来越近,未来的一抹曙光也正在天际迅速明朗。

《人工智能》讲述的正是这种熠熠生辉且近在咫尺的未来,隐藏在角落里的变化,以及它们将如何永久性地改变我们的生活。

霍普菲尔德网的兴起

与明斯基和派珀特的断言相反的是,神经网络研究人员多年来一直认为,神经网络能够展现出新的能力,并且解决罗森布拉特感知器的问题,但前提是在网络输入和输出之间放置额外的“隐含”神经元层。不幸的是,没人知道如何训练这些多层神经网络。著名物理学家约翰•霍普菲尔德(John Hopfield)为具体应当如何做提供了建议。

霍普菲尔德对当时人工智能的主流形式是什么并不感兴趣。他说:“我从未深入研究过人工智能领域到底发生了什么。人工智能并不能解决现实世界里的问题。我认为没必要去了解它。” 然而,多年以后,他一直苦苦追寻被他称作“需要用一生的时间去研究的问题”。由于对人类大脑十分感兴趣,他考虑的问题涵盖范围广泛,从灵长类神经解剖学到昆虫飞行的行为,再到大鼠海马的学习乃至阿兹海默症的治疗。有一段时间,霍普菲尔德对细胞自动机和自我复制的机器人的前景十分着迷。然而,几个月的研究最终还是走进了一条死胡同。

霍普菲尔德说:“放弃一个错误的思想十分困难,毕竟我们已经研究一年了。”但是,在计算机内部创造一个生命模型的想法却一直都在。他对一个想法十分着迷,即用神经网络完成大脑能够迅速且轻松完成但计算机却不能完成的任务。霍普菲尔德最终选择了联想记忆,联想记忆是指大脑如何以交互的方式工作,也就是看见一个人就能联想起他的名字,或者听到他的名字就能想起他的长相。联想记忆背后的数学运算使霍普菲尔德想到“自旋系统”的数学运算,该运算描述的是固体磁性的复杂形式。他的脑海中突然产生了一个想法。霍普菲尔德回忆道:“神经生物学和我所了解的物理系统之间突然产生了一种联系。一个月之后,我已经开始写论文了。”

1982 年这篇论文发表后,一种全新的神经网络产生了。霍普菲尔德网络比罗森布拉特的感知器中的单层模拟神经元复杂得多。他的思想再次激发了人们对神经网络的热情,这也使他成为这一过程中出人意料的英雄。加州理工学院的一组追随者开始以“霍普集会”(Hop-Fest)的名义召开会议。霍普菲尔德的发现吸引了一些世界上最伟大的理论物理学家参与到神经网络的研究当中。该领域的研究人员多年来头一次感觉到热血沸腾。

然而,事情并没有我们想象得那么容易。正如我们在第一章中看到的,20世纪80年代早期是“专家系统”的天下,资金也是空前的充裕。尽管后来这些“专家系统”的发展将遭遇困境,但在当时却是十分强大,人们根本不认为它们会失败。世界领先的神经网络专家特里•谢伊诺斯基(Terry Sejnowski)当时正在普林斯顿大学读霍普菲尔德的博士,他回忆道:“我们当时好像是生活在恐龙时代的只有毛皮的哺乳动物,在这些长着麟甲的巨兽的脚下混日子,他们有数百万美元的机器和庞大的预算。那时,所有人都专注于计算逻辑,但是我们明白,他们忽视了推动人工智能向前发展所面临的真正困难。”

幸运的是,神经网络吸引了许多年轻且富有热情的研究人员,其中就包括圣地亚哥加州大学的认知科学家戴维•鲁梅尔哈特(David Rumelhart)和詹姆斯•麦克兰德(James McClelland),他们成立了一个“并行分布处理”小组,并产生了令人难以置信的影响力。

说到这里就不得不提到另外一个人,他就是杰夫•辛顿(Geoff Hinton)。

神经网络的守护神

杰夫•辛顿出生于1947 年,是现代神经网络最重要的人物之一。作为一名谦逊的英国计算机科学家,他对其所在领域的发展产生的影响很少有人能企及。他出生于一个数学家家庭:他的曾祖父是著名的逻辑学家乔治•布尔(George Boole),他的布尔代数曾为现代计算机科学奠定了基础。另一位亲戚是数学家查尔斯•霍华德•辛顿(Charles Howard Hinton),因提出“四维空间”这一理念而闻名,阿莱斯特•克劳利(Aleister Crowley)在其小说《月之子》中曾经两次提到了辛顿。

辛顿说:“我一直对人类如何思考以及大脑如何工作很感兴趣。”上学时,一个同学说大脑储存记忆的方式和3D 全息图像储存光源信息的方式是一样的。要想创建一个全息图,人们会将多个光束从一件物品上反射回来,然后将相关信息记录在一个庞大的数据库中。大脑也是这样工作的,只是将光束换成了神经元。由于这一发现,辛顿在剑桥大学选择了研究哲学和心理学,之后又在苏格兰爱丁堡大学研究人工智能。辛顿在20 世纪70 年代中期来到寒冷的爱丁堡,人工智能领域遭遇的首个冬天几乎在同一时期到来。尽管传统人工智能刚刚遭受打击,但辛顿的博士导师仍急于让他远离神经网络。辛顿说:“他一直试着让我放弃神经网络的研究并投入到符号人工智能领域。为了能够有更多时间研究神经网络,我必须不断和他讨价还价。”辛顿并没有获得其他的支持。学生们认为他是疯了才会在明斯基和派珀特完全否认神经网络后还继续研究。辛顿在爱丁堡期间,明斯基的学生帕特里克•温斯顿(Patrick Winston)出版了一本早期人工智能教材。书中记载着有关神经网络的内容:

许多古希腊人都支持苏格拉底的一个观点,即深奥且令人费解的思想是上帝创造的。如今,对这些漂泊无定的人而言,甚至概率神经元都相当于上帝。很有可能的是,神经元行为的随机性的提高是癫痫病患者和醉酒的人的问题,而不是聪明人的优势。

人们对温斯顿的思想十分不屑,但是他当时对神经网络的类似于宗教信仰般的看法并不是完全错误的。辛顿对人脑必须以某种方式工作这一认识十分欣慰,很明显,这是无法用传统的符号人工智能来解释的。他说:“大多数常识推理都是凭直觉或以类比的方式做出的,其中并不涉及意识推理。”辛顿认为,传统人工智能的错误之处在于:其认为,任何事都是由一系列基本规则和有意识推理组成的。对符号人工智能研究人员来说,如果我们不能理解某一部分的意识,这是因为我们还没有弄懂其背后的推理。

毕业以后,辛顿暂时在英国苏塞克斯从事博士后工作,之后收到了一份来自美国的工作邀请。于是,辛顿打点行装,搬到了加州大学,不久以后,又搬到了卡内基–梅隆大学。在接下来的几年里,他一直积极努力在神经网络领域取得开创性进展,即便到了今天,其成就仍对人工智能的研究产生着影响。

他最重要的贡献之一,要算是他对另一位研究人员戴维•鲁梅尔哈特的帮助,帮助他再次发现“反向传播”流程,这大概是神经网络中最重要的算法,之后他们首次以可信的方式证明,“反向传播”使神经网络能够创建属于自己的内部表征。当输出与创造者希望的情况不符时,“反向传播”使神经网络能够调节其隐藏层。发生这种情况时,神经网络将创建一个“错误信号”,该信号将通过神经网络传送回输入节点。随着错误一层层传递,网络的权重也随之改变,这样就能够将错误最小化。试想一下,有一个神经网络能够识别图像,如果在分析一张狗的图片时,神经网络错误地判断为这是一张猫的图片,那么“反向传播”将使其退回到前面的层,每层都会对输入连接的权重做出轻微调整,这样一来,下次就能够获得正确的答案。

20 世纪80 年代创建的“NETtalk”项目是“反向传播”的一个经典案例。NETtalk的一个共同创建者特里•谢伊诺斯基将其描述为用于了解电脑是否能够学习大声朗读书面文字的“夏季项目”。该项目面临的最大挑战在于语言一点也不简单。项目刚刚开始的时候,谢伊诺斯基去图书馆借了一本有关音韵学的书,即诺姆•乔姆斯基(Noam Chomsky)和莫里斯•哈雷(Morris Halle)所著的《英语语音模式》。谢伊诺斯基说:“这本书里都是各种事情的规则,例如字母e 出现在单词末尾的时候应该如何发音等。书中提到了例外情况,之后又列举了例外情况中的例外。英语就是大量的复杂关联。我们似乎选择了世界上在规则性方面最糟糕的语言。”

一直以来,传统人工智能都在不断尝试将这些单独的例子插入到一个专家系统中。谢伊诺斯基和一位名为查尔斯•罗森伯格(Charles Rosenberg)的语言研究人员决定通过创建一个由300个神经元组成的神经网络来实现这一目标。当时,辛顿正在实验室访问,他建议他们在项目的最开始使用儿童书籍来训练该系统,这本书的词汇量一定要小。起初,这项任务十分艰难,计算机一次只能读一个单词,而他们必须为每个字母都标注正确的音素。例如,字母e在“shed”、“pretty”、“anthem”、“café”或“sergeant”中的发音各不相同。谢伊诺斯基和罗森伯格每次进行说明的时候,他们创建的神经网络都悄悄地调节对每个连接的权重。该系统面临的最大挑战是使机器能够正确发出每个单词中间部分的音节。为了做到这一点,神经网络必须使用中间字母左边和右边的字母给出的提示。

一天下来,NETtalk已经全部掌握了书中的100个单词。这一结果令他们感到震惊。接下来,他们让NETtalk使用有20 000个单词的韦伯词典。幸运的是,词典中的所有音素都已经标注出来了。他们下午把单词输入到系统中,然后就回家休息了。当他们第二天早上回到办公室时,系统已经完全掌握了这些单词。

最后的训练数据是一本对儿童说话内容进行誊写的书,以及一位语言学家记录的儿童发出的实际音素的清单。这就意味着,谢伊诺斯基和罗森伯格能够将第一个誊写本用于输入层,将第二个音素清单用于输出层。使用“反向传播”以后,NETtalk能够学习如何像孩子那样说话。一段NETtalk的录音说明了该系统在这方面取得了飞速的进展。在训练之初,系统只能够区分元音和辅音,其发出的噪声则像是歌手表演前做的发声练习。在训练了1 000 个单词以后,NETtalk发出的声音更接近人类发出的声音了。谢伊诺斯基说道:“我们完全震惊了,尤其是在当时计算机的计算能力还不如现在的手表的情况下。”

联结主义者

有了杰夫•辛顿等人的帮助,神经网络开始蓬勃发展。当时有一个传统,那就是继任的一代都会给自己重新命名,新研究人员们称自己为“联结主义者”,因为他们对复制大脑中的神经联结十分感兴趣。到1991 年,仅在美国就有1 万名活跃的联结理论研究人员。

忽然之间,各个领域都取得了突破性的进展。例如,人们发明了专门用于预测股市的神经网络。大多数情况下,投资公司使用不同的网络预测不同的股票,然后由交易商来决定投资哪只股票。然而,有些人在此基础上更进一步,赋予网络本身自主权,使其能够自行买卖。无独有偶,金融领域迅速涉足电子游戏领域,时刻准备着为人工智能研究人员进行投资。算法交易时代轰轰烈烈地开始了。

当时神经网络领域的另一个引人注目的应用就是自动驾驶汽车。发明自动驾驶汽车一直是技术人员的梦想。1925年,发明家弗朗西斯•霍迪纳(Francis Houdina)展示了一款无线电控制的汽车,他操控汽车行驶在曼哈顿的街头,而车中无须人来操控方向盘。之后,自动驾驶汽车测试使用导丝和车载传感器使汽车能够按照路上画好的白线行驶,或通过识别出地下电缆发出的交流电行驶。1969年,约翰•麦卡锡发表了一篇标题为“计算机控制汽车”的论文极具挑战性。麦卡锡所提议的方案基本上是设计一个“自动化司机”。他的项目需要一个能够进行公路导航的计算机,计算机上仅带有一个电视摄像机来输入信息,该输入使用与人类司机相同的视觉输入。麦卡锡假设用户能够使用键盘输入地点,并要求汽车立即载他们过去。紧急情况下,用户可以使用额外的命令变更目的地,要求汽车停在洗手间或宾馆门口,在有紧急情况时减速或加速。

类似的项目直到20世纪90年代早期才得以实现,当时卡内基—梅隆大学的研究人员迪安•波默洛(Dean Pomerleau)写了一篇激动人心的博士论文,文章介绍了如何将“反向传播”应用于无人驾驶汽车。波默洛称其开发的神经网络为神经网络中的无人驾驶汽车或ALVINN(控制器),并将道路上的原始图像作为输入信息,并实时输出转向控制信息。当时,还有许多其他传统人工智能博士正在研究类似的自动驾驶项目。这些非神经网络的方法主要通过严谨的像素分析将各图像划分为不同类别,例如“道路”和“非道路”。然而,与许多传统人工智能面临的问题一样,计算机很难将信息解析为像实时路况那样的非结构化信息。假如一辆自动驾驶汽车依靠这一技术进行危险的高速行驶,发生事故的可能性是很大的。波默洛回忆道:“它们可能将树影或者树木本身识别成道路,这样车辆就会朝着树直接开过去,而不是避让。”

为了训练ALVINN,驾驶员只需简单地驾驶一段路程。波默洛说道:“驾驶员只需驾驶2—3 分钟,ALVINN 系统就能够了解并更新反向传播网络的权重。结束驾驶时,驾驶员可以放开方向盘,系统会继续驾驶车辆开始一段新的路程。”波默洛的发明只关注了方向,却无法控制速度或避开障碍物,这两点必须由驾驶员来完成。尽管如此,波默洛也取得了巨大的成功,1995 年,庞蒂克小型货车上安装了从旧汽车上回收的ALVINN 的升级版——RALPH(快速调节横向位置处理器)。波默洛和一位名为托德•约赫姆(Todd Jochem)的研究人员为其配备了一台电脑、640×480 像素的彩色照相机、全球定位系统接收器和光纤陀螺仪,之后他们驾驶该车横穿美国。借鉴了1986 年“携手美国” (Hands Across America)慈善活动的名称,他们将这次旅行称为“横穿美国”(NO Hands Across America)。他们在路上卖10 美元一件的衬衫,用于支付食宿费用。最后,这辆汽车一共行驶了2 797英里,途经匹兹堡、宾夕法尼亚、圣地亚哥、加利福尼亚,中间还穿过了胡佛水坝,这一切都是汽车自动驾驶完成的。《商业周刊》的一位记者在报道这一事件时,一名堪萨斯州骑兵要求其将车停到路边。而波默洛和约赫姆乘自动驾驶汽车旅行,甚至连双手都无须握住方向盘。

15年后,谷歌在2010年10月发布了自己的无人驾驶汽车项目。然而,我们仍要感谢波默洛在神经网络领域做出的开创性贡献,他证明了自己的观点。

欢迎来到深度学习领域

神经网络在21世纪中叶迎来了又一次重大进展。2005年,杰夫•辛顿在多伦多大学任教,此前不久,他一直在英国伦敦大学学院工作,在那里建立了盖茨比计算神经科学组。这时,人们已经清楚地认识到,互联网能够生成大量数据集,这在10年前是想都不敢想的。如果说以前的研究人员面临的问题是没有足够的数据来对系统进行适当的训练,那么互联网的兴起则大大改善了这一状况。如今,据国际数据公司等研究公司估测,目前网上在线数据量约为4.4泽字节a。记者史蒂夫•洛尔(Steve Lohr)在其所著的极为有趣的《数据论》一书中指出,如果能将这些数据输入iPad Air(苹果超薄平板电脑)中,那么产生的堆栈将能够覆盖地球到月球距离的2/3。

然而,就像地球虽然有大量的水,但并不是所有水都可以喝一样,这些数据中好多都是未标记的。当数据集较小时,研究人员可以将主要精力放在正确标记所有数据上,这对训练系统来说更加有用。然而,随着数据量的增加,研究人员就无法再这样做。例如,2013 年3 月,网络相册Flickr 共有8 700 万注册用户,他们每天上传超过350 万张新图片。从理论上看,这对那些想要建造一个能够识别图片的神经网络的人们来说是一个天大的好消息,但同样也提出了挑战。正如我们所看到的,训练神经网络最简单的方法就是向其展示大量图片,然后指出每张图片都是什么。通过标记图片,训练员既提供了输入(图片),又提供了输出(描述)。神经网络就可以反向传播,以纠正错误。这就是我们所了解的“监督式学习”。但是,流通中还有许多未标记或没有正确标记的图片,计算机如何对其进行识别呢?

幸运的是,杰夫•辛顿掀起了一场“非监督式学习”的革命,这种学习方式无须向计算机提供任何标记。机器能够访问的只有输入,无须解释它看到的是什么。首先,这听起来像是机器无法通过这种方式学习。如果没有得到明确的解释,即使是最智能的神经网络也不会知道某物到底是什么。实际上,辛顿发现的是“非监督式学习”可以用来训练上层特征,而且每次只能训练一层。这一发现成为“深度学习”的催化剂,而“深度学习”就是当前人工智能最炙手可热的领域。

我们可以将深度学习网络想象成工厂的一条生产线。输入原材料后,它们将随着传送带向下传递,后续的各个站点或层会分别提取不同的高级特性。为了继续完成一个图像识别网络的案例,第一层将用来分析像素亮度。下一层将根据相似像素的轮廓来确定图中存在的所有边界。之后,第三层将用来识别质地和形状等。到达第四层或第五层时,深度学习网络已经创建了复杂特性检测器。这时,它就能够了解4个轮子、挡风玻璃和排气管通常是同时出现的,眼睛、鼻子和嘴也是同时出现的。它不知道的仅仅是汽车和人脸都是什么样的。深度学习网络能够识别的许多特性可能都和手头的任务无关,但是其中有一些特性却是和手头任务高度相关的。

辛顿解释道:“训练这些特性检测器时,每次训练一层,这一层都试图在下面一层找到结构模式。之后,就可以在顶部贴上标签并使用反向传播来进行微调。”结果深深震撼了人工智能界。辛顿回忆道:“其中涉及一些数学问题,这总会给人们留下深刻的印象。”

有关深度学习的消息迅速传开。辛顿实验室的两名成员乔治•达尔(George Dahl)和阿卜杜勒–拉赫曼•穆罕默德(Abdel-rahman Mohamed)迅速论证了该系统不仅能够进行图像识别,还能够进行语音识别。2009年,俩人将其新创建的语音识别神经网络与已经使用了30多年的行业标准工具放到一起一较高下,结果是,深度学习网络获得了胜利。这时,谷歌邀请辛顿的一位博士生纳瓦迪普•杰特列(NavdeepJaitly)修补谷歌的语音识别算法。看了一眼之后,他建议用深度神经网络取代整个系统。尽管一开始持怀疑态度,但杰特列的老板最终同意让他尝试一下。事实证明,新的程序比谷歌精心调试数年的系统表现还要出色。2012 年,谷歌将深度学习语音识别程序嵌入安卓移动平台,错误率与之前相比立刻下降了25%。

那年夏天,辛顿终于收到了谷歌的电话。这个搜索巨头邀请他夏天到位于加利福尼亚州山景城的校园工作。尽管辛顿当时已经64 岁了,谷歌却将他定为“实习生”,因为员工必须严格服从公司政策,即必须在公司工作好几个月之后才能被授予“访问科学家”的头衔。尽管如此,辛顿仍然加入了由20 岁出头的年轻人组成的实习生组。他甚至还戴上了新实习生们专用的上面带有螺旋桨图案的帽子,被称作“新谷歌人”(Nooglers)。辛顿说: “我一定是史上最老的实习生。”当时,他开玩笑似的表示,那些并不知道他是谁的年轻同事肯定是把他当作“老笨蛋”了。

辛顿在谷歌的工作涉及为其他潜在的应用提出有关深度学习的建议。那年夏天的工作进展得十分顺利,第二年,谷歌正式聘用了辛顿。除他之外,谷歌还聘请了他的两名研究生,辛顿和这两名研究生共同创建了一家名为“DNNresearch”的公司。辛顿在一篇声明中写道:“我会继续在多伦多大学兼职任教,在那里我还有很多出色的研究生,但是在谷歌我能够看到我们如何处理超大型计算。”在神经网络领域孤独地耕耘了30年后,杰夫•辛顿最终在世界最大的人工智能公司发挥了重要作用。

1998年,苹果公司推出了其外观线条呈圆形的iMac电脑;《哈利•波特》风靡世界;第一款移动MP3播放器上市;一位来自雷丁大学控制论专业的44岁教授在这一年进行了一项非同寻常的运算。凯文•沃维克(Kevin Warwick)教授进行了一个非急需外科手术,目的是将一个包在玻璃管内的硅片植入自己的左臂皮肤之下。一旦植入人体,这款射频识别设备(RFID)的芯片发出的无线电信号,就能经由实验室周围的天线,随即传入能够控制沃维克周围环境的中央计算机。“在(我的实验室)的主入口处,当我进门时,一个由计算机操作的音箱发出‘你好’的声音。”后来凯文•沃维克记下了他的体验:“计算机检测到我进入大楼的过程,当我走近实验室的时候,为我开了门,点亮了灯。芯片植入体内后的9天里,我仅仅沿着特定的方向行进,就可以触发周围的物体自己行动。”

约20 年后再来看,沃维克的这项实验依然震憾人心、发人深省。与沃维克职业生涯的其他事情相比而言,这项实验最有意义。然而,在过去的几十年里,我们对此事的惊诧程度可能多多少少发生了改变。尽管回避有人愿意采取这种侵入式手术的原因依然很容易,但关于为什么有人想这么做的问题已经不再重要。写这篇文章的时候,我的手腕上带着一块42 毫米的不锈钢苹果手表,搭配了米兰风格的表带。这款表价格为599 英镑,它能实现的功能远远超过凯文•沃维克在其植入式射频识别设备上所设想的功能。一旦我收到一条短信或一个电话,或者如果我的朋友在图片分享网站Instagram贴了一张新图,我只需要看看手表就一目了然。而且在超市购物时,我可以用手表刷卡支付。同样,我也可以用手表打开世界各地酒店的房门。外出的时候,手表连续发出的嘀嗒声和震动可以告诉我应该走哪条路。一串嘀嗒声提醒我右转,另一串嘀嗒声则提醒我左转。第一次震动表明我的旅程结束了,而第二次震动则告诉我到达目的地了。所有这些功能并不需要进行侵入式手术。

如果你正在阅读这本书,你很可能对“智能设备”这个名词并不陌生。除了种类日益繁多的智能手表,如Pebble(一款智能手表)、Android Wear(安卓的可穿戴应用程序)及其他设备,还有智能跑鞋,智能跑鞋能够记录步数、心跳频率,并使用嵌入式屏幕传达你的情绪,比如使用笑脸和爱心等符号。智能冰箱不但可以记录温度与冷藏的食品,还会在你最喜欢的食物就要吃完了或将要变质的时候通知你。还有智能安全摄像头、智能厨房秤、智能灯泡、智能马桶、智能尿片和智能牙刷。2014年,谷歌以惊人的32亿美元现金收购了最著名的智能设备公司Nest Labs。Nest Labs由苹果前雇员马特•罗杰斯(Matt Rogers)和“iPod之父”托尼•法德尔(Tony Fadell)联手创立,打造了多款可以联网的智能设备,其中最重要的是智能恒温器,通过一段时间的学习,这款恒温器可以了解用户的习惯,并相应自动地调节温度。

传感器、人工智能算法与通过Wi-Fi(无线局域网技术)实现的持续联网状态相结合,使这些设备变得“智能化”。以前,接入网络而变得智能是一件令人们不得不“大费周折”的事。今天,我们的在线连接很少出现中断的现象。总的来说,这些进展使我们从用户那里收集数据、分享数据,并且帮助用户理解数据成为可能。“数据赋予我们力量,”世界第一个联网电动牙刷生产商Kolibree的营销与战略总裁勒妮•布洛杰特(Renee Blodgett)表示:“这是我们第一次将刷牙方式、刷牙部位以及刷牙时哪里需要改进结合在一起。”在我们拥有智能牙刷之前(这对我而言,就是现在),我们不得不依靠一年前进行年度检查时牙医的反馈。而通过智能牙刷,我们可以实时获得这些信息。

智能设备成为现代生活的必需品

现在,我们处于未来技术的“早期采用”阶段,未来技术的支持者声称,这些技术将像19 世纪末、20 世纪初电力时代的到来一样,带来一场巨大的变革。1879 年,美国发明家托马斯•爱迪生已经能够在加利福尼亚州门洛帕克市自己的实验室里生产可靠耐用的电灯泡了。到了20 世纪30 年代,美国90% 的城市居民,以及越来越多的农村地区的人们都可以利用这项技术。随着开关的拨动,电赋予人们控制光的能力,人们能够控制自己家和工作场所的光线。这打破了生活的正常生物节奏,使人们能够随心所欲地安排自己的工作和娱乐时间。随之而来的电网引入了大量的连接设备,创造了工业,并永远地改变了人们的生活。

美国西尔斯百货(当时一家初具规模的邮购公司)1917 年春季的商品目录使公众知道“电不仅仅可以用来照明”。事实确实如此。铁熨斗、洗衣机和真空吸尘器使洗衣与清洁更加容易。由于效率的提高,不但清洁度上升了,而且家庭雇用的家政人员数量也越来越少。电冰箱取代了冰盒,使食物更加易于长期保存。天热的时候,我们可以使用电扇,而天冷的时候,我们可以使用辐射发热器,这是人类第一次能够控制气温。电力为大众带来了电话与飞机,并在即时通信年代,受到了新闻与娱乐行业的追捧。1938 年,美国前总统富兰克林•罗斯福在佐治亚州巴恩斯维尔演讲时宣称,电力是现代生活的必需品。

我们能否开启一条同样的智能设备变革之旅?或许是可以的。当然,移动无线网络的崛起意味着设备的使用比以前更加方便。“物联网”(这个定义有时候显得相当笨拙)之梦是,智能硬件要像一个世纪以前的电力那样,成为21世纪重要的“现代生活的必需品”。那时我们进入了电气化时代,现在我们将进入互联时代。

当前,智能设备领域充斥着大肆炒作之风,爱立信公司的分析师预测,到2020年全球将有约500亿台智能设备,相当于人均6.8台。“这不仅是一场进化,这还是一场革命。”苹果前雇员、现在掌管创业公司SITU(该公司生产量化卡路里摄入量的智能天平)的迈克尔•格罗特豪斯(Michael Grothaus)表示:“这是自个人电脑诞生以来,技术界最激动人心的事了。”

会思考的事物

1991年,剑桥大学计算机科学系特洛伊木马研究室的研究人员提出了一个新的想法。他们在自己的研究室中放置了一个共用的咖啡壶,然后决定安装一台摄像机用以监视一天的咖啡用量。研究人员将摄像机设定为每秒捕捉一帧,然后将其编码为灰度级的JPEG格式文件,最后将图片文件通过早期的万维网发出去。通过各自的计算机,该系研究人员可以登录到“视频”源中查看壶里是否还有剩余的咖啡,从而省去他们去打咖啡的无用功。

“‘咖啡俱乐部’的一些成员位于大楼的其他区域,他们不得不为打咖啡爬上爬下,如果特洛伊木马研究室熬夜的黑客们先打了咖啡,那么其他成员打咖啡的结果常常是无功而返。”当时在系里工作的计算机科学家昆汀•斯塔福德– 弗雷泽(Quentin Stafford-Fraser)牢骚满腹地说:“这样打咖啡对计算机科学研究进程造成的中断,显然使我们非常苦恼,于是‘XCoffee’(X 咖啡)就这样诞生了。”

我之所以提出XCoffee,因为它证明了一个非常重要的观点,即什么是我们认为的“智能技术”。XCoffee也常常被看作智能设备现代趋势的早期例子。某种程度而言,这是真的。与许多最新的智能配件一样,XCoffee与网络连接,因而也成了所谓的“物联网”的一部分。但是对我而言,XCoffee更接近硬件极客所说的“黑掉”的范例,“黑掉”这个术语就是俗话说的解决棘手问题的高明方法。成为今天我们称作智能设备(麻省理工学院媒体实验室称之为“会思考的事物”)的前提条件是,它必须以一种自我管理的反馈回路而存在,无须过多人工干预就能够自动运行。物联网并不仅仅把“物”连接到互联网。传统互联网使人们能够搜索、下载音乐或者阅读信息。另一方面,物联网主要用于非人类实体的交流,这是越来越多的人热衷于M2M(机器对机器)交流的原因。

智能设备应该能够感知自己所处的环境、识别特定状态、触发评估、产生行为等等,从而形成一个连续的环路。智能设备的“智能”在于中间的部分,那里负责处理感知到的信息,以及如何基于信息采取具体的行动。一台真正智能的咖啡机不只是提醒人们咖啡机空了,而是能够计算出使用者可能口渴的时间,并且自己能及时重新加满咖啡,调制出咖啡成品以满足使用者的个体需求。甚至基于无人控制的桌对桌(desk-to-desk)送货也是可能的。

“控制论”简史

我们将在本章讨论的多数智能设备都包含机器学习的元素。正如围绕人工智能的各种问题都可以回溯至数百年前一样,关于具有自我调节功能的机器的想法也同样如此。早在公元前205年,寓居于埃及亚历山大港的希腊数学家克特西比乌斯就建造了世界上第一台能自我控制的设备。克特西比乌斯的作品是一台水钟,其最大特点就是拥有一个可以保持恒定流速的校正器。这台水钟通过设在水缸里的浮子计时。水从水缸底部的小孔滴落,浮子就随着水位下降。每运行一单位的时间,浮子顶端的类似于人偶的器械就进行一次齿轮机械操作。克特西比乌斯水钟有多个不同版本,在不同版本中,它要么落下一块卵石,要么鸣响一声喇叭。

克特西比乌斯水钟意义重大,因为它永久性地改变了我们对人造之物的认知。早在克特西比乌斯水钟之前,人们认为只有有生命的东西能够根据环境的变化调整自己的行为。而克特西比乌斯水钟诞生之后,自我调节反馈控制系统成了我们技术的一部分。

进入20 世纪,影响后世的人工智能先驱诺伯特•维纳(Norbert Wiener)制定了反馈系统的数学理论。维纳提出一个设想:智能行为是接收和处理信息的必然结果。这个设想就是众所周知的控制论。“二战”期间,当维纳与其同事朱利安•毕格罗(Julian Bigelow)在从事旨在提高高射炮精确率工程的时候,他的反馈系统理论得到了细化。维纳和毕格罗解决了向飞行中的飞机提高开火准确率的难题。这曾经是个难题,因为炮手必须预先判断目标的位置。他们的解决方案是通过预测目标飞行位置并相应调校火炮的瞄准器,从而自动调整炮手的瞄准过程。

维纳关于感知和反馈作为一种优化性能的方法的设想不仅仅只是用于战争。维纳与之前的研究者不同,他将反馈构想成一种通用的普适原则。他认为,反馈能够以同样的方式应用于机器、组织、城市甚至是人的大脑。他在1905 年出版的《人类的人类用法》(The Human Use of Human Beings)一书中记录下了许多这样的设想,此书比“人工智能”的正式问世早了6 年。作为一本出人意料的畅销书,它描述了智能自动化推动社会进步的各种方式。维纳抛弃了建造能够思考的机器来替代人类的想法,而是在他的书中讨论了人类与机器可以合作的方式。在导读中,他写道:

这是本书的论点:只有通过学习属于社会的信息与掌握通信设施才能了解社会;而且,在这些信息与通信设施未来的发展过程中,人与机器、机器与人以及机器与机器之间的信息注定要发挥越来越重要的作用。

控制论从来没有像人工智能那样获得过大量的研究经费。然而,关于可以用于预测未来的数学反馈系统的设想几乎是建造今天所有智能设备的基础。例如,标准的“无声”恒温器通过传感器收到温度信息,并根据其冷热程度,为你开启火炉或空调。另一方面,一个“智能”恒温器能够整合其他数据源,如当天的天气预报或家里人对房间温度的历史设定信息。它甚至可以根据房间内多人的身体传感器读数的集合,选择一个平均的温度。代替那种简单的反应式工作,智能设备的工作变成了预测式的。

这要求不同设备之间相互作用。与预先连接的同类设备相比,这些智能设备可能是相对智能些,但离我们实际称之为的“智能”还相去甚远。但是当设备彼此之间能够分享数据和目标时,新的可能性就展现了出来。这就是专家所描述的“环境智能”,即通过使用嵌入网络的智能,多种设备共同执行各种任务。就像白蚁共同建造一处蚁穴一样,整体是大于部分的总和的。

早期的自动机器人

这种对机器与环境(或者更好的情况是,多种机器与其环境)之间突发行为的兴趣源于控制论运动,并引发了机器人领域的一些早期重要工作,如威廉•格雷•沃尔特(William Grey Walter)所从事的工作,他是一位出生在美国而生活在英国的神经科学家。1949 年,沃尔特建立了世界上第一对三轮机器人,他称之为“乌龟”。与刚刚开始研究数字计算机的计算机科学家不同,沃尔特依靠模拟电子学来仿制其机器人的大脑。他的目标是证明少量脑细胞之间丰富的关系能够产生复杂的行为。他对这样的概念十分痴迷,即机器可以定义目标,并随后通过学习自己的行为产生的后果从而完成目标。

沃尔特的“ 乌龟” 分别名为埃尔默(Elmer)和埃尔希(Elsie),都装配有光敏元件、标志灯、触摸感应器、推进马达、转向马达和保护壳。尽管这对机器人还不能可靠地工作,但它们能够自动探测周围的环境。在沃尔特所著《活着的大脑》(The Living Brain)一书里,他回忆了一段经历:一位年长的女士认为这对自主漫游的机器人在追逐她,于是逃上楼将自己锁在卧室。在沃尔特工作的位于布里斯托尔的博尔顿神经学研究所(Burden Neurological Institute),沃尔特在技术人员W. J. 邦尼•沃伦(W. J. Bunny Warren)的帮助下,使乌龟机器人得到了改进。他在1951 年的“不列颠节”(Festival of Britain)上展示了后续三台“马基纳•斯巴卡拉特里克斯”(MachinaSpeculatrix)机器人,它们基于埃尔默和埃尔希原型进行了许多重大改进。其中包括当电池即将耗尽时,机器人会转身向光源前进。今天,虽然人们几乎已经遗忘了沃尔特的乌龟机器人,但是它们是早期自动机器人的典范,能够通过自己的行为,以试错的方式进行学习。

谈到威廉•格雷•沃尔特的乌龟机器人的后续产品,就不可能不提到iRobot公司创造的真空清洁机器人Roomba。Roomba呈小型圆盘状,在计算机的引导下可以在家里自动工作。尽管它可以通过基于反馈的“智能”对刺激做出反应,但一般情况下,它遵循一系列预先设计的清洁策略。首先,它会一直清理直至与障碍物发生碰撞,碰撞指示其改变线路并以新方向重新开始清理。为了使之有效移动,Roomba包含了许多智能传感器,其中两个是红外传感器,帮助它检查墙体以及被它称为“悬崖”的物体,比如楼梯和其他会造成下落的地方。当Roomba撞到障碍物时,触摸感应缓冲器会阻止其向前行进。在Roomba的下面装配有俗称的“压电传感器”,可以检测到灰尘。如果在一个地方发现过多的灰尘,Roomba将重复其步骤以进行第二次清理,第二次速度将放慢并清理得更加彻底。仅仅观察这些简单的步骤,Roomba就展示出了一种看上去像是由人执行的突发行为。

某种意义而言,“突发”这个词表明这种行为是不可预测的,其实不然。如果完全基于上述的简单规则,我们可以理解为什么Roomba能以自己的方式行动。然而,如同沃尔特的“乌龟”一样,当Roomba设法完成自己的任务时,行为实体(behavioural agent)与环境的结合可能产生一些意想不到的响应。

单独一台Roomba的运行和表现都非常好。但是,就像沃尔特通过其乌龟机器人所发现的,当不止一台实体相互作用的时候,事情就真的变得很有趣了。沃尔特最有趣的观察结果是,当这些“乌龟”彼此围绕旋转的时候,他发现了它们“跳舞”的方式。这种舞蹈由一种看上去由机器人仪式化的碰撞和后退组成。这是他装在乌龟机器人身上的标志灯造成的,当转向马达开启的时候标志灯就亮了,而转向马达停止时标志灯就熄灭了。由于每个乌龟机器人依靠对方的标志灯来定位,它们就像同一物种的两个生物首次见面一样彼此吸引。当“乌龟”走过显现它们身影的镜子时,会发生同样的现象。沃尔特宣布,如果这是一种动物行为的话,这种行为“或许可以证明乌龟机器人具有自我意识”。

即使Roomba 的热衷者也不愿意承认两台交互的真空清洁机器人具有“自我意识”,但沃尔特表明多重代理系统使智能设备变得更加有趣,这点是没有错的。举例来说,如果你家的门能够自动开或关,从而使Roomba 可以一次清扫多个房间,这将产生什么效果呢?这在某些场合是令人满意的,比如,如果你有一只宠物而你不希望它进入某一房间,或者如果你有一个特殊的房间在供暖,你不想它进入这个房间。同样,如果Roomba 能够接入装在前门或汽车里的传感器,并且知道在你去上班的时候就开始工作,那么你回家的时候清洁工作就已经完成了。或许,这就是那些制造智能设备的大公司正在努力的方向。

2015年6月之前,我从来不会花很多时间考虑诸如哪个城市的居民睡眠最少,抑或通勤不足5英里的上班人士是否比距离更远的人锻炼得更多这样的问题。然而对于感兴趣的人而言,答案分别是:日本东京的市民睡眠最少(平均每天睡5小时44分钟);“是的,通勤不足5英里的上班人士比距离更远的人锻炼得更多”(每天多走422步)。

这是班达尔•安塔比(Bandar Antabi)告诉我的。安塔比无疑是世界上最佳的酒吧竞猜选手。你若问他,他会告诉你,如果你希望夜晚早点降临的话,那么你最佳的居住地是澳大利亚的布里斯班,在那儿,人们大约晚上10点57分就要进入梦乡,而“夜猫子”的首选居住之地应该是俄罗斯的莫斯科,那里通常凌晨12点46分才是人们入睡的时间。他说,在情人节女人会比平时少吃约3%的大蒜,但是当天男人会多吃37%。瑞典的斯德哥尔摩人是最活跃的步行者(按每天平均量计算),而巴西圣保罗人是世界上最不活跃的步行者,等等,就像你把达斯汀•霍夫曼(Dustin Hoffman)在《雨人》中的角色放在维基百科上数小时一样,很快你就得到了所有答案。

班达尔是个非常聪明的人,但他也是个非常不擅长处理琐事的人。他能采集这些信息是因为作为特殊项目主管,他所任职的公司Jawbone已经花费多年时间不知疲倦地在收集这些信息。

1999 年,Jawbone 以为美军开发降噪技术而起家,随后才涉足蓝牙头戴设备、扬声器以及后来的可穿戴生活记录仪等领域。就是可穿戴生活记录仪这种装满传感器的智能设备使Jawbone 今天闻名于世,如UP3,它是一种如同手表的细腕带,专注地记录着从你的睡眠模式、呼吸节奏、心率到“皮肤电反应”等所有事情的设备。Jawbone 的大量用户所生成的原始数据使班达尔知道了如此多的“真相”。现在,这些数据包括了3 万亿步、2.5 亿次睡眠以及将近200 万顿饭。随着时间的流逝,数据将继续增加,还可能纳入几十种其他的计量内容,如用户每天摄入的咖啡因总量等。简而言之,Jawbone 希望成为你计量生物学上的记录者。

“我们的任务是建立这种个性化的数据集,它整合了你的个人身份、档案、生物学信息、年龄、身高、性别、饮食偏好、情绪等信息。”班达尔告诉我这些的时候,我在Jawbone 英国公司的总部诺丁山办公大厦13 层,坐在他的对面,喝着一杯星巴克咖啡。他继续说道:“我们也想了解你的相关活动。你什么时候坐着,什么时候活动且消耗卡路里,你的睡眠质量如何。通过挖掘这些信息,随着时间的推移,我们可以为你提供大量的信息。我们正在建立一个关于你的健康的场景化数据集。”

Jawbone 与许多技术硬件公司建立了有经纪人参与的合作,但是如果只是分享数据的话,这些业务是不值得我花费笔墨的。你的恒温器真的需要知道在昨夜的晚餐中你吃了什么吗?如果你的电视知道你一周要慢跑4 次,这会对你有什么好处呢?班达尔说,实际上这意义深远。“有数据虽然是好事,”他对我说,“但是理解数据才是我们关注的。”

“理解数据”意味着可以通过恰当的人工智能算法,以具有上下文意义的方式分析你的数据。“我们可以使用这种技术,以一种有利的方式将数据用于适合的设备。”他继续说道,“比如,你可以将Jawbone的智能设备与你的智能恒温器配对,那么当你睡觉的时候,卧室里的温度可以自动调节至最有利于你睡眠的状态。当你醒来时,温度可以再次改变。”

这些数据处理即通常所说的事件驱动程序或者IFTTT规则(通过不同平台的条件来决定是否执行下一条命令)。这些简单的规则,依据简单的方法,将服务环节串联了起来。IFTTT规则先驱林登•蒂贝茨(Linden Tibbets)曾将这些规则称为“数字传送带”,因为它们可以使智能技术的创造者或用户将完全割裂的概念联系起来。这种在智能设备领域可能或者当前正在发生作用的交互例子不胜枚举,比如,如果你的汽车知道你昨夜没有睡好,它可以从你的智能恒温器提取数据,这些数据如果显示出你遇到寒冷会更精神,它就可以打开空调,确保你能保持足够的清醒。通过你的可穿戴健身记录仪,它可以了解到当你听某一类型音乐时你的表现最佳,因此,它可以自动播放金属乐队的音乐使你一天都活跃起来。它甚至可以知道昨夜你和朋友外出聚会,现在仍然还处于醉酒状态。为了实现这点,它使用嵌入在变速杆上的传感器,分析你手掌汗液里的酒精含量。如果遇到这种状况,它会让汽车熄火,并建议你呼叫一辆优步(Uber)出租车。

还有一个例子,你的智能电视可以收到你的睡眠记录,并可以基于你一天的时间安排为你提供定制化收看电视节目的时间建议。如果晚上9 点放弃看让你脑子兴奋好几个小时的《权力游戏》(Game of Thrones)这样的节目后,为什么不选择看《摩登家庭》(Modern Family)呢?或许你在观看一个你喜欢的烹饪节目,智能电视就将节目中的食谱发送至智能冰箱,冰箱监控着所有食物,所以它知道里面是否存放有烹饪这道菜所必需的各种原料。如果没有的话,它可以将所需原料加入家庭采购杂货的快递清单之中。随着越来越多的设备与网络连接,能够提取彼此的数据并由事件驱动程序将它们相互关联,技术迷期待已久的梦想即将实现了。