人机大战: 沃森的胜利永远是人类的胜利

DOIT 3月7日原创报道: “加里•卡斯帕罗夫,在他身上发生了一些可怕的事情,他是世界上最勇敢、最充满斗志的棋手,意志坚强,但他在最后一局比赛中却像孩子一样被击垮。一定发生了一些可怕的事情。”人类的智慧与棋王的职业生涯,被1年后卷土重来的深蓝II击垮,6:0的比分让棋王与人类对棋类运动的爱好,顷刻间碎的遍地瓦砾。
当第一次人类与机器坐在一起,通过人类所创造、设计并完善的智力运动——国际象棋——与人类对弈,却最终以一场悬殊的比分所结果的比赛败下阵来,本来人们以为这将是棋逢对手将遇良才,以为这将是火花碰撞到炫目的比赛,却成为创造游戏规则者成为输家的经典案例与茶余饭后的谈资,IBM的深蓝II,在逻辑上第一次公正、公平、公开的打败了人类,标志着在逻辑层面,人类被自己所创造的“机器怪物”所击败。
 
 
 
IBM系统与科技部大中华区Power Systems服务器产品部总经理韩忠恒  
 
十五年后,人类发现自己被机器落下的,早已不仅仅是逻辑能力,当沃森以计算机的形态站在美国著名的智力问答节目“危险边缘”的时候,不祥的阴云已经笼罩在人类的头顶,继逻辑之王的头衔被埋葬,人类所拥有并且为之所骄傲的“自然语言/语义表达能力”及“事物关系的建立能力”却被敲响了“丧钟”——在一场网络上的投票对赌中,几乎所有的人都认为,作为人类我们毫无胜算,而作为机器的沃森,将最终胜利。
这是注定的结局,这是从一开始就知道点大点小的赌局,这是从一开始就知道比赛结果的一场毫无悬念的比赛,我们不得不承认,逻辑分析能力的差距我们已经无法赶上,现在,机器在语义与关系方面的能力也开始让我们望成莫及。
这一切,都是如何发生的?
 

 
Watson全景 
 
沃森的胜利:当我们的语言不再是秘密
美国电视竞答节目《危险边缘》很像是CCTV的《幸运52》,这是一档轻松且云集智慧的电视问答节目,与国内的节目不同的是,《危险边缘》的问题更加刁钻、古怪且包含很多隐含、晦涩的信息——哪怕题目也是如此——甚至有时你并不知道真正的问题是什么?
微妙含义、反讽、谜语、甚至脑筋急转弯等种种线索充斥着这个竞答节目的问题,这意味着,所有的选手不能够仅凭字面意思了解问题的本质,而对于沃森,重点也就从问答本身,转移到了如何理解人类语言文字意义表面之下,所蕴藏的“语义”而非简单的字面意义的理解。在回答问题的时候,沃森不可以联网、要理解并答复这种“狡猾”提问(实际上,连接互联网并非是最好的办法,过多的信息意味着过多的错误信息,很可能影响沃森的判断), 主要依靠的是它对自然语言的理解和高速的计算。
当沃森被问到某个问题的时候,100多种运算法则会通过不同的方式对问题进行分析,并给出很多可能的答案,而这些分析都是同时进行的。在得出这些答案之后,另一组算法会对这些答案进行分析并给出得分。对于每个答案,沃森都会找出支持以及反对这个答案的证据。因此,这数百个答案中的每一个都会再次引出数百条证据,同时由数百套算法对这些证据支持答案的程度进行打分。
而对于最后给出的答案,证据评估的结果越好,沃森的信心值也就越高,而评估成绩最高的答案会最终成为电脑给出的答案。但在比赛中,如果连评估成绩最高的答案都无法达到足够高的信心阈值,沃森会决定不抢答问题,以免答错而输掉奖金。这所有的一切计算、选择与决策都在3秒钟之内完成。
如今在经历了三天的比赛后,沃森毫无悬念的赢得了比赛,虽然尚且不能证明沃森“真的比人类聪明”,但是沃森在语义理解与关系建立方面的成就超越了此前所有的计算系统——同样也证明了他并不输于人类——沃森的胜利证明,人类的语言在计算机面前可能已经不是秘密,虽然据IBM中国研究院资深经理潘越表示,沃森在中文理解力方面尚且处在0岁阶段,但是对于以英文为代表的拉丁语系的理解已经几乎达到了人类的水平。
“我们把Watson称之为机器学习的系统,换成一个领域的话是具有一定程度的适应性的。所以,机器学习最后做综合判断的方法,当Watson换到一个新领域的时候,我们为它设计新的数据,但是是不是要设计新的算法,或者说要不要改新的系统结构,这方面还有很强的适应能力,很有可能我的算法不用改,但是我要用新的领域的数据对于综合判断的模型做一个训练,然后训练出来得到新的模型就可以适用新的领域,也有可能需要这个新的领域做出新的算法。但是这些算法只是说这几百种里面我再加上几种,加上几种之后,整个体系结构不需要做大的改变,也能适应新的问题。”
 
 
 
IBM中国研究院资深经理潘越 
沃森是一套计算系统,但却不是一套平凡的IT,据潘越介绍,沃森项目实际上始于四年多以前——可能就是在深蓝II十周年的时候——前后共有包括美国、中国、日本以色列的30多名研究员参与到这个项目中,潘越与他的五名同事作为中国研究院的佼佼者也加入了这个团队中,负责“用结构化的信息来帮助Watson提高回答问题的正确性,同时避免一些比较愚蠢的回答”。
作为一套计算系统,在潘越及其同事的努力下,在2月的危险边缘三场比赛中,它显示出了出色的语义分析能力,让人类的语言——至少是西方拉丁语系——在它的面前毫无秘密可言,对此,有许多媒体记者与看客都惊呼,沃森将是终结者出现的开端,甚至有人认为,沃森的出现,意味着我们已经开始让机器“拟人化”,朝着图灵测试的方向发展。
但沃森的出现没有必要让人类风声鹤唳草木皆兵,它确实是强大的计算系统,能够分析语义,建立事务关系,在“成为人的方面”他还差的很远,我们只能说,人类的语言在沃森面前已经不是秘密,至少,它所代表的信息技术,已经为了解所有的人类语言打开了一扇窗。
IBM POWER:恶魔的使者还是上帝的援手?
作为一套计算系统,沃森的成功不仅仅来自于它的设计、程序与算法,也不仅仅是潘越及其同事们的不断优化,与十五年前的深蓝及深蓝II相同,沃森的成功同样来自于软硬件结合,它是一套集合了当今最先进的硬件与最先进的人机交互、语义分析软件的系统。
“一是DeepQA ?Architecture,深问答架构,这个机器能够很快的分析,来回答问题。二是他们用的Power7服务器的产品,是由很多台Power7组成的。” IBM系统与科技部大中华区Power Systems服务器产品部总经理韩忠恒是沃森粉丝,同时他所负责的POWER产品线也是沃森的重要组成部分之一。
作为沃森的应用架构,DeepQA ?Architecture的信息披露的并不多,只知道这是一个建设在开源的Linux操作系统上面,实现数据分析、语义分析、答案筛选、问题自学习等沃森必备功能的应用系统,再加上最后应用的UEMA软件——大计算量、深度运算、并行、高效率与更加开放的应用程序与开源代码是沃森软件层面的优势,据称,这一套系统将会在未来成为新一代的人机辅助决策系统,在多个行业内应用。
而在沃森的硬件架构中,IBM的POWER Systems服务器平台的出现被业界认为是IBM整个商业模式的一部分,如十五年前展示IBM的计算实力一般,沃森实则是作为Power的推广而生的——作为沃森的应用平台,90台基于Power 7处理器的Power750服务器组成的集群,是沃森的硬件平台,它拥有最多2880个计算核心、16TB的内存,达到超过80Teraflops的计算量,承载了三天内快速回答危险边缘问题的重任——但韩忠恒和潘越都否定了沃森是为了Power而生的说法,潘越认为,从参与这个项目及对沃森的了解来看,Power确实是最好的平台。
事实上,在团队建设及沃森项目规划的开始阶段,基于Power平台的沃森,就帮助IBM研究院的团队解决了一个大问题:操作系统如何选择?是不是有现成的开源代码可以选择?——“有很多开源的Code,因为Power系统很开放,Linux系统也可以跑。”潘越说,在最开始,团队里面就在考虑利用简单、高效且开源的一些代码和架构参考设计,Power芯片的多线程和高主频的优势在一开始就是备选,但是团队希望做的更加开放和开源,所以在选择硬件平台上,还是做了很多工作。
“从软件上来讲,UEMA本身是一个多平台的软件,本身Java写的,IBM在Watson这个项目当中也是开放的,包括和八所大学在一起合作做了一个计划,我们在国内开发Watson过程当中也邀请了中国一些大学参加,这本身是一个很开放的项目。”潘越表示,当初沃森选择Power平台,很大的一部分原因是因为Power平台的开放性,有对Linux良好的支持,而核心的UEMA则来自于一个基于Linux的开源项目。
而另外一方面,Power系统一直以来以高主频、高运算速度、多核心、多线程作为研发的方向,单机大节点的设计思考方式,诞生了类似Power750这样单系统拥有极高性能的产品,从而解决了需要设计非常大的系统这样的问题,换句话说,Power平台的高性能避免了大量服务器堆叠成为计算系统的设计复杂性和空间、能耗的占用,加上本身RISC架构在处理类似问题方面的优势——RISC架构实现更快的速度执行指令,虽然对编译器有更高的要求,但是在类似危险边缘这种深度、重复计算的模型中,拥有天然的优势。
同时,Power750基于工作负载优化的方式也在一定程度上帮了沃森的忙,在Power750这一个仅仅是中端Power7系统的产品中,工作负载优化同样被加以重视,“去年10月份的时候,Power750除了省空间之外,基于整体的系统来说,来选一个比较体现工作负载的系统只有Power7,往x86方面走的话,其实会有更多不同的问题。”韩忠恒表示,不选择X86架构一方面是基于目前在类似应用中系统的整体水平还是Power7更高,另一方面,是这样规模的计算量——2880个核心——如果换用CISC架构的X86,实际上并行优化、空间、能耗都还存在问题。
潘越也透露,为了能够让沃森成为可能,IBM最初的硬件设计平台考虑的是刀片架构,X86与Power刀片当时都有所考虑,但是最后随着IBM不断提升Power处理器及系统的计算能力,沃森项目最终才选择了Power架构的Power750服务器。
Power750,这不是一个多遥不可及的名字,了解IBM的Power7服务器产品线的人都知道,Power750只是整个Power7服务器家族中的中端产品,并非最高端的“金字塔尖”,或者我们可以这样说,Power750是Power7家族中面向关键业务主流市场的产品,拼的是销量与价格的最佳搭配,既不像低端比拼价格力争销量,也不像高端比拼性能获得高额的利润,可以说是Power7家族中的“大路货”。
开源、高性能的Power750搭载了可能是现在“最了解人类的机器”沃森,可以想见的是,未来可能它还会搭载沃森II、沃森III或是其他什么名字的人机大战主角,甚至可能在若干年后,在Power平台上我们将能够见到完美实现“图灵测试(测试机器是否能够等同于人类的测试)”的超级智慧系统,对于这样一个未来可能真正超越人类的机器的承载着,我们到底会如何看待Power?它到底是“恶魔的使者还是上帝的援手?”韩忠恒表示,随着沃森在民用市场的应用步骤逐步展开,显然Power是人类获得的上帝有力的援手。
沃森的胜利永远是人类的胜利:比赛过后“下岗再就业”
“沃森的胜利永远是人类的胜利。”这不是一句哗众取宠的话,无论是从硬件层面还是软件即系统层面,沃森的胜利对人类本身都是大有裨益的。
就硬件系统而言,Power 750服务器已经在全球广泛地应用于处理复杂的分析和交易两种不同的工作负载,交易处理可以被想象成针对固定数据而采取的行动,这类工作负载主要靠缓存子系统,重点在于定位正确的信息。
基于工作负载系统的不同应用模式,Power750服务器满足了不同工作负载的不同类型的对系统的要求——在缓存、内存和存储中,潜伏时间是最重要的;而分析工作负载更多地侧重数据之间的变换,在分析过程中,数据会迅速地在系统中移动。因此在分析系统中,带宽是最重要的。POWER7无论在潜伏时间上还是在带宽上都是行业领头羊,因此对于两种不同的工作负载来说都是绝佳的运行平台。
韩忠恒介绍,Power服务器在交易处理方面的性能早已达到了行业领先,因此沃森最令人兴奋的地方还在于它非常清楚地展现了Power 服务器的商业智能性――虽然分析处理还是相对新的工作负载,但已经迅速变成许多机构和企业的关键业务。
提到商业智能,不得不提到沃森的DeepQA架构和UEMA软件所带来的算法分析、智能信息搜索、语义分析、事物关系建立方面的能力——在《危险边缘》中,每个问题都需要沃森从海量信息中进行全面筛选——在这一点上,与其他任何商业性的智能信息搜索指令都是相通的,而沃森与网络搜索引擎不差异在于,后者是根据。
与此同时,沃森的架构是可以“学习”的,潘越表示,IBM把Watson称之为机器学习的系统,在不同的领域,沃森是具有一定程度的适应性的。所以,机器学习最后做综合判断的方法——对于信息分析、信息抽取等技术——当Watson换到一个新领域的时候,只需要为它设计新的数据,而不需要设计新的算法,或者说要不要改新的系统结构。
“很有可能我的算法不用改,但是我要用新的领域的数据对于综合判断的模型做一个训练,然后训练出来得到新的模型就可以适用新的领域,也有可能需要这个新的领域做出新的算法。但是这些算法只是说这几百种里面我再加上几种,加上几种之后,整个体系结构不需要做大的改变,也能适应新的问题。”基于沃森在智能信息检索与面向数据的机器学习方面的能力,沃森被认为在民用领域有极强的潜力,尤其是其智能信息检索、语义分析、事物关系建立方面的能力,被认为在辅助决策领域有很强的优势,医疗行业如已经成为沃森在《危险边缘比赛之后》“下岗再就业”的首选。
“各行各业都有可能,想象空间是很大的,我们不要把这个定位成就是问答题的一个游戏的机器,它能发挥的功能在各个方面都是可以的。比如说医疗,我们在美国等地方已经做实时分析的应用,而且医疗需要很大的知识库和数据库,在那边搜索和分析非常重要,什么样的病痛需要什么样的药方都会有分析。”韩忠恒表示,医疗可能是沃森最先的就业领域之后,而在此之后,其实各个需要决策支持、辅助设计、搜索检索分析的行业都可能是沃森的“就业领域”,而这些应用在如今各个行业中广泛的被使用着。
“比如说金融行业,也有很大得数据库,怎么做分析,尤其是保险业的分析,数据量很大,保险业,以前的那些案例,还有你的身体状况,可能都要分析出来,这也是用一个比较好的分析系统能够做出来的。在服务支持和技术方面可能有很大的应用空间。所以我想说,各行各业都可能用到,问题是你在哪个应用里能够把人工智慧体现出来,只要你能想得到就能做得到,所以空间是很大的。”
韩忠恒说,他所提到的这些应用,其实也都是“一个小小的案例,抛砖引玉而已。”