在现实世界中,我们每个人都需要预测:想要深入分析未来、思考是否买股票、制定政策、提出新产品构想,或者只是计划一周的饭菜。这样的思考能让我们受益。不幸的是,人们往往是糟糕的预测者。如何能够做出更准确的预测?
沃顿商学院教授菲利普•泰洛克的研究表明,某些专业预测人士确实具有远见卓识,泰洛克在过去10年中一直尝试着找出原因。是什么让这些人如此优秀?这样的天赋可以传授给他人吗?泰洛克与丹•加德纳合著的《超预测》一书借助数十年的研究成果和一项由政府资助的大型预测比赛的结果,为我们提供了一本关于预测的杰作。
在这本开创性的通俗易懂的书中,泰洛克和加德纳告诉我们如何向这个精英群体学习。他们将成功预测的故事和失败预测的故事以及对一系列高层决策者的访谈串接在一起,阐明了出色的预测并不需要强大的计算机或者深奥的方法。它需要的是从多种来源收集证据、注重概率思维、组建团队一起工作、记录预测得分,并且愿意承认错误、改变航向。
《超预测》提供了最明显有效的方法来帮助我们提高能力,以便更好地预测未来的商业、金融、政治、国际事务,以及日常生活。不论你是管理者、投资者、企业家、政府界人士还是普通大众,此书做出都会成为预判未来、进行明智决策的必读之书。它注定要成为当代的经典之作。
你我都是预测家
在考虑换工作、结婚、买房子、投资、推出新产品和退休时,我们的决定是以我们对未来的展望为依据的。这样的展望即是预测。我们自己常常做一些预测。但是,当市场崩溃、战争危机、政坛动荡之类的大事件发生时,我们会求助于专家,例如托马斯•弗里德曼这样的专业人士。
如果你是白宫职员,也许你会在椭圆形办公室找到正与美国总统谈论中东事务的弗里德曼。如果你是《财富》500强企业的首席执行官,你会在达沃斯见到他,在休息室与之交谈,四周是掌管对冲基金的亿万富翁和沙特王子。如果你不是白宫或者豪华的瑞士酒店的常客,你可以阅读他在《纽约时报》的专栏文章和畅销书,从中了解世界现状及其根源,预览未来。无数的人正是这样做的。
和托马斯•弗里德曼一样,比尔•弗莱克(Bill Flack)预测的是全球性事件。但是,人们对后者真知灼见的需求程度远远低于对前者的需求。
比尔多年来供职于位于亚利桑那州的美国农业部,按照他的话来说,就是“有时干干农活,有时做做电子表格”。现在他生活在内布拉斯加州的科尔尼。该州俗称“剥玉米者之州”,比尔是土生土长的“剥玉米者”。他在内布拉斯加州一个名曰麦迪逊的农业县长大。他的父母拥有并发行《麦迪逊之星邮报》(Madison Star-Mail),这是一份刊载大量本县体育和集市新闻的报纸。
比尔高中时品学兼优,后在内布拉斯加大学获得理学学士学位。毕业后,他又去亚利桑那大学深造,目标是拿下数学博士学位。但他认识到这个目标非自身能力所及,“实力不足让我备受煎熬”,他后来这样描述。于是,他放弃了。不过,这段时光也没有虚度。鸟类学课程使比尔成为狂热的鸟类观察家,而且,得益于亚利桑那州良好的观鸟环境,他可以在业余时间为科学家做田野调查,进而在美国农业部谋得一份工作。他在那里待了一段时间。
比尔现年55岁,已退休,但是他说,如果有人提供工作机会,他会考虑的。目前赋闲在家的他,有时做一些预测。
比尔大约就300个问题给出了自己的见解,这些问题包括“未来3个月俄罗斯将会进一步‘吞并’乌克兰的领土吗”,“明年哪些国家会退出欧元区”。这些都是难以回答的重大问题。企业、银行、使馆和情报机构一直都在努力寻求此类问题的答案。
“朝鲜会在年内引爆核装置吗?”“未来8个月还会有多少国家报告埃博拉病例?”“未来两年内印度或巴西会成为联合国安理会常任理事国吗?”其中一些问题至少对我们大多数人来说毫无头绪。
“北约会在今后9个月邀请新国家加入成员国行动计划吗?”“伊拉克库尔德自治区政府会在今年举行关于成为独立国家的全民公投吗?”“如果一家中国之外的电信公司中标上海自由贸易区未来两年的互联网服务合同,中国民众能够访问脸谱(Facebook)和推特(Twitter)吗?”
刚开始思考任何一个这样的问题时,比尔可能也会一头雾水。他会想:“上海自由贸易区到底是什么?”但是,比尔会做“功课”。他搜集真实资料,综合考虑相互对立的观点,最后得出结论。
没有人依据比尔•弗莱克的预测来做决定,也没有人请他在美国有线电视新闻网上分享自己的观点。他从未被邀请至达沃斯论坛与托马斯•弗里德曼同台论道。这并非幸事,因为比尔•弗莱克是一位值得关注的预测家。这不是信口胡说,因为比尔的每个预测都被独立的科学观察员按照发表时间记录下来,并进行了准确性评估。他的过往预测记录非常出色。
这条路上比尔并不孤单,还有成千上万的人也在寻求同类问题的答案,他们都是志愿者。大多数人不像比尔那样优秀,只有约2%可以做到。这些人包括工程师和律师、艺术家和科学家、华尔街精英和普通中产阶层、教授和学生。
我们将会谈到他们中的许多人,有一位数学家、一位导演,还有一些退休人士,他们热衷于展现并未得到充分发挥的才干。我称他们为“超级预测家”。这些人名副其实,我将出示可靠的证据证明之。
本书的目标就是:说明他们为什么如此出类拔萃,其他人如何向他们学习。
这些不引人注目的超级预测家与托马斯•弗里德曼这样的大牌智囊相比,孰强孰弱,这是个十分有趣的问题,但是我们无法知道答案,因为弗里德曼的预测准确性从未经受过严格检验。弗里德曼的粉丝们和评论家自然是有着不同的看法:“他揭示了突尼斯骚乱”;“他误判了2003年美国对伊拉克的入侵”;“他预见到北约的扩张”。可是,托马斯•弗里德曼的过往预测从未有过确凿的记录,只有他人无休止的评论,以及评论之评论。通常这不过是商业行为。
日复一日,新闻媒体只是传播预测,却不报道(或者哪怕是质疑)做出这些预测的预测家们的真实水平。日复一日,企业和政府购买预测,这些预测要么的确是真知灼见,要么毫无价值,也有一些处于二者之间。日复一日,所有的人,包括国家领导人、企业管理者、发明家、选民,都会根据准确性无从知晓的预测做出重要决定。
棒球队经理如果不了解球员以往的表现,是不会想着掏钱买入这位球员的。即便是球迷,也希望在记分牌和电视屏幕上看到球员的统计数据。然而,就预测家而言,尽管借助他们的帮助,我们所做的决定远比任何棒球比赛都重要,但我们并不在乎对预测家本人一无所知。
因此,我们对比尔•弗莱克的预测的信赖看起来非常合乎情理。实际上,可以证明,对本书诸多读者的预测的信赖同样合情合理,因为事实是,预测不是一种“要么全有,要么全无”的天赋,它是一项可以培养的技能。本书将阐明如何开发预测能力。
关于黑猩猩的笑话
我可不想让你们被这个笑话逗乐,所以我要提前抖出它的“包袱”:专家预测的平均准确度大致和掷飞镖的黑猩猩相当。
你很可能听过这个笑话。它流传甚广,但是在某些圈子里备受诟病。它在一夜之间出现在《纽约时报》、《华尔街日报》、《金融时报》、《经济学人》和世界其他媒体上。
这个笑话一般是这么说的:一位研究者召集了一大群专家,包括学者、评论家,诸如此类,让他们就经济、股票、选举、战争和其他日常生活中的问题做了成千上万个预测。许久之后,研究者检验这些预测的准确性,发现这些专家的预测形同随机猜测。大致就是这样,除了一点:“随机猜测”不是笑料,因为这不好笑;“掷飞镖的黑猩猩”才是那个笑料,因为黑猩猩很有趣。
我就是那位研究者,其实,有一段时间我并不介意这个笑话。我的研究提供了关于科学文献中的专家判断预测法的最广泛的评估。这是一项艰苦工作,从1984~2004年,持续了约20年,成果极为丰富,极具建设性,那个笑料所能揭示的只是冰山一角。我对这个笑话不存芥蒂,因为它提高了我的研究的知名度。而且说实话,科学家也愿意享受这转瞬即逝的名气。再者,我自己使用过“掷飞镖的黑猩猩”这个比喻,所以也没有太多可抱怨的。
我对这个笑话不反感的另一个原因是它提出了一个合理的观点。
打开任何报纸,看看任何电视新闻,你都会发现,总有专家在预测某事将要发生。有些人态度谨慎,更多的人胆大自信。一小撮人宣称自己是来自奥林匹克山的智者,能预见未来数十年的状况。除了少数例外,大部分专家能在摄像机前侃侃而谈,不是因为他们拥有任何可证实的预测能力。准确性甚至很少被提及。
旧的预测就像过时的新闻,很快被人遗忘。大众几乎从未要求评论家的预言要与实际情况相符。评论家们有一项无可否认的才能,那就是怀着坚定的信念讲述一个引人入胜的故事,这就足够了。
许多人靠着向企业领导层、政府官员和平民百姓兜售价值存疑的预测获得财富,这些受众从来不会吞服疗效和安全性不确定的药物,但却定期地购买一些如同从四轮马车后部售出的灵丹妙药那样可疑的预测。真应该给这些评论家和他们的客户一个警示。我很高兴地看到我的研究发挥了这样的作用。
但我意识到,随着我的研究成果传播开来,它所包含的表面意义发生了突变。我的研究所显示的是,在我提出的许多政治和经济问题上,专家预测的平均水平比瞎猜好不了多少。然而,“许多”不代表全部。在仅需一年时间即可验证的超短期问题上,专家最容易做出准确判断,当他们试图预测更长时间之后的事件时,准确性就会下降,在3~5年的问题上,水平接近于掷飞镖的黑猩猩。
这是一个重要发现。它揭示了在复杂世界中专业预测的局限性,以及超级预测家能力所及之处。
在儿童游戏“传话”中,主持人小声地将一个短语告诉排在第一位的孩子,他转述给下一个孩子,依次传递,最后大家惊讶地发现短语被改得面目全非。正如这个游戏所展示的那样,真实信息在持续的复述过程中被歪曲,原有的精妙之处荡然无存。
我要表达的信息变成了“所有的专家预测都没有价值”,这是胡说八道。一些曲解甚至更加粗鄙,例如“专家的知识也就达到黑猩猩的水平”。我的研究成为虚无主义者和支持不可知论的民粹主义者的理论依据,前者认为未来从根本上说不可预测,后者坚决要求在“专家”两字前面加上“所谓的”。
所以,我厌倦了那个笑话。我的研究不支持更加极端的结论,我也不喜欢这样的结论。现在,我更加坚定自己的立场。
是做一个揭穿真相的人,还是充当专家及其预测的辩护人?事实上,在二者之间,我们有大量的机会选择理性的立场。一方面,揭穿真相的人确实有他们的道理。预测市场中的确有一些不露声色地兜售值得质疑的观点的家伙。此外,专家的预言存在着怎么样都无法摆脱的局限性。我们的能力总是不能满足我们想要知晓未来的欲望。
另一方面,揭穿真相的人太过分了,他们把一切预测都贬低为愚蠢之举。我相信,至少在某些情况下,在一定程度上看清未来是有可能的,任何思想开放的聪明人经过努力都能够培养出必要的技能。
就叫我“乐观的怀疑论者”吧。
怀疑论者
“怀疑论者”占了我这个称号的一半分量,为了理解这个词的意义,请想象以下场景:在突尼斯城市西迪布济德,一位突尼斯青年推着一辆装着水果和蔬菜的木制小车,沿着尘土飞扬的道路前往市场。小伙子三岁时父亲就去世了。他借钱来售卖自家的农作物,以此养家糊口。他希望卖掉农产品,赚到足够多的钱,还清债务,并且还留有余钱。每天他都过着这样的清苦生活。
可是,这天早晨,警察过来声称要没收货物,因为他违反了某些法规。他知道警察在撒谎。他们对他进行了彻底搜查。但小伙子身无分文。一名警察掌掴了他,还辱骂他已故的父亲。他们拿走了货物和推车。小伙来到市政大厅抗议,却被告知相关官员正忙于开会。年轻人受到羞辱,怀着愤怒和无力感离开了。
他携带燃油返回。在市政大厅外,他将燃油倒在身上,点燃火柴。他的身体燃烧起来。
而这个故事的结局不同寻常。在突尼斯和整个阿拉伯世界有不计其数的穷困的街头小贩。警察贪腐是普遍现象,这位年轻人所受到的羞辱在日常生活中司空见惯。除了警察和遭受羞辱的人,上述现象不会影响到其他任何人。
然而,2010年12月17日,这种针对特定人群的羞辱导致26岁的穆罕默德•布瓦吉吉(Mohamed Bouazizi)引火自焚。他的献身激起了民众的抗议。警察以典型的残暴行径作为回应。抗议活动蔓延开来。突尼斯的独裁者、总统宰因•阿比丁•本•阿里,看望了在医院救治的布瓦吉吉,希望平息民众的怒火。
布瓦吉吉在2011年1月4日去世。骚乱加剧。1月14日,本•阿里飞往沙特阿拉伯,在一处舒适的住所开始流亡生活。长达23年的窃国政权倒台了。
目睹这一切的阿拉伯世界震惊了。抗议浪潮随后席卷埃及、利比亚、叙利亚、约旦、科威特和巴林。埃及“独裁者”霍斯尼•穆巴拉克在位30年,如今被赶下台。在其他地方,抗议恶化演变成叛乱,叛乱又扩大为内战。它和其他数不胜数的社会革命完全一样,起因仅仅是一位穷人被警察骚扰,表面上根本看不出会发生连锁反应,而这样的例子此前和此后屡见不鲜。
就像现在我所做的那样,回顾并简述这段历史,将穆罕默德•布瓦吉吉与他独自抗议之后发生的一切联系起来,这和预测不是一回事。
同许多杰出的评论员类似,托马斯•弗里德曼擅长那样的历史重现,特别是他对中东历史了如指掌,使他成为新闻行业的名人,担任《纽约时报》驻黎巴嫩记者。但是,如果在那个至关重要的早晨,托马斯•弗里德曼在现场,他能够凝视未来,预见到布瓦吉吉的自我牺牲、骚乱、突尼斯独裁者的下台以及之后发生的一切吗?
当然不能。没有人可以。也许,考虑到弗里德曼对该地区的了解,他会细细思量:穷人和失业者数量庞大,绝望的年轻人数量不断增加,腐败猖獗,压迫持续发生,因此突尼斯和其他阿拉伯国家就是随时会爆炸的火药桶。可是,革命发生的前一年或者前两年,任何观察者都能做出完全相同的评论。
事实上,就突尼斯、埃及和其他几个国家而言,数十年来你都能得到同样的结论。它们也许是火药桶,但从未爆炸。直到2010年12月17日,这一天,警察让那位穷人走投无路,火药桶终于被点燃。
1972年,美国气象学者爱德华•洛伦兹(Edward Lorenz)写了一篇论文,标题引人注目:“可预测性:一只在巴西翩翩起舞的蝴蝶可否在得克萨斯州引起龙卷风?”
10年前,洛伦兹偶然发现,使用计算机对天气模式进行仿真时,数据输入的细微变化,例如以0.506取代0.506 127,也许会导致明显不同的长期预测结果。这是一个让人联想到“混沌理论”的想法:在大气这样的非线性系统中,初始条件的细小变动,可能膨胀为巨大变化。
因此,理论上说,一只生活在巴西的蝴蝶扇动翅膀,确实有可能引发得克萨斯州的一场龙卷风,尽管另外一大群巴西蝴蝶一辈子疯狂地扇动翅膀,也绝对不会在几英里之外掀起明显的狂风。
当然,洛伦兹不是指蝴蝶“引发”了龙卷风,不是像我用锤子砸酒杯导致其破碎那样有着直接关系。他的意思是,如果那只特别的蝴蝶当时没有扇动翅膀,那么大气活动和大气反应构成的深不可测的复杂网络就会有不同的表现,龙卷风也许永远不会形成,这就如同,突尼斯骚乱也许永远不会发生,至少不会在这样的情形下发生:2010年的那个早晨,警察允许穆罕默德•布瓦吉吉售卖水果和蔬菜。
爱德华•洛伦兹改变了科学界的观点,使之认识到,可预测性存在难以逾越的局限性,这是深刻的哲学问题。
几个世纪以来,科学家一直认为,不断增加的知识一定会导致更好的可预测性,因为现实就像钟表,虽然庞大、复杂到令人敬畏,但仍然只是一块钟表。科学家越了解它的内部结构,例如齿轮怎么啮合,钟锤和弹簧如何工作,他们就越能通过确定的方程把握它的运行规律,预测它的走向。1814年,法国数学家、天文学家皮埃尔–西蒙•拉普拉斯从逻辑上将这个梦想发挥到极致:
我们可以将宇宙的当前状态视为过去的结果和未来的成因。这种智慧将在某个时刻洞悉让大自然运转起来的一切力量,知晓它的所有组成部分的所有位置;不仅如此,如果这种智慧宽广到足以对上述数据进行分析,它能用一个公式道尽最浩瀚的宇宙和最渺小的原子的运动。对这样一种智慧而言,一切都是确定的,未来就像过去一样呈现在它的眼前。
拉普拉斯将他想象中的这种存在称为“魔”。他认为,如果“魔”对现在无所不知,它就能预测未来的一切。它将是全知全能的。
洛伦兹对这个梦想迎头浇了一盆冷水。如果钟表象征拉普拉斯式的完美的可预测性,那么它的反面就是洛伦兹式的云。高中的科学知识告诉我们,水汽聚集在微尘周围,就形成了云。听起来简单,不过,某一朵特定的云到底如何形成,什么形状,则有赖于水滴之间复杂的反馈作用。为了反映这些相互作用,计算机建模师需要建立这样的方程:对数据采集过程中出现的能导致蝴蝶效应的细微误差高度灵敏。
所以,即使我们知道所有关于云的形成原理的知识,也无法预测特定的云将呈现什么形状。我们只能等着瞧。历史的一个大笑话就是,当今科学家的知识远远多于100年前的同行们,拥有的数据处理能力也远胜于后者,可是对完美的可预测性的前景的信心却小得多。
这就是我的自我定位—“乐观的怀疑论者”—后半部分为什么是“怀疑论者”的重要原因。
我们生活在这样的世界:一个近乎软弱无能的人的行为可能对世界产生连锁效应,每个人因此而受到的影响不尽相同。
一名住在堪萨斯城郊区的妇女也许会认为突尼斯是另外一个星球,她的生活与之毫无关系,可是如果她的丈夫是驻扎在怀特曼空军基地附近的空军领航员,那么,她可能会惊讶地得知某个不知名的突尼斯人的举动引发了抗议,进而导致暴乱和独裁者的倒台,随后又在利比亚掀起抗议浪潮,并发展为内战,于是北约在2012年进行了军事干预,而她的丈夫则在的黎波里上空躲避防空炮火的攻击。
这是一种不难追踪的联系。通常,这样的联系更难发现,但却充斥在我们周围,就像加油站的油价和街头的失业人群。一只巴西蝴蝶可以在得克萨斯州导致两种不同的情形:或者是一个晴天,或者是龙卷风撕裂城镇。在这样一个世界,认为任何人都可以深刻洞悉未来的观点会使人误入歧途。
乐观主义者
然而,意识到可预测性的局限性是一回事,否认所有预测,视之为徒劳无益的行为,绝对又是另外一回事。
让我们打开记录仪,观察那位居住在堪萨斯城郊区的妇女一天的生活:早晨6点半,她将文件塞进公文包,钻进车里,驾车沿着平时的路线去上班,在市中心停好车。她步行穿过狮群的雕像,走进堪萨斯城人寿保险公司希腊风格的办公楼,每个工作日早晨都会如此。在工位上,她花一些时间处理电子表格,10点半参加电话会议,然后在亚马逊网站上逛几分钟,接着回复电子邮件,直到11点50分才停下来。随后她走进一家店面不大的意大利餐馆,与姐姐一起吃中饭。
这位妇女的生活受到诸多不可预测因素的影响,例如钱包里的彩票,导致丈夫飞往利比亚执行任务的骚乱,以及,某个她闻所未闻的国家发生政变造成每加仑汽油价格上涨5美分。
但是,也有同样多甚至更多的因素完全可以预测。她为什么6点半离开家?答案是她不想在行车高峰期内被堵在路上。或者换一种说法,她预料到稍后交通状况会糟糕得多。她几乎百分之百是对的,因为高峰期内交通状况可预测程度很高。开车时她要不断预测其他司机的行为:红灯时他们要停在路口;他们保持在自己的车道内行驶,转向时会打灯。她认为那些说自己要参加10点半电话会议的人会遵守约定,她判断对了。她计划和姐姐在那家餐馆共进午餐,因为餐馆的公告显示届时它会开门营业。公告是可靠的指引。
我们每天都做这样单调的预测,其他人同样如此,而他们的预测会影响到我们的生活。
那位妇女开启电脑,就会增加一点堪萨斯城的电力消耗,而在那个早晨,其他“工蜂”也会有此举动,他们合力产生了一个电力需求高峰。每个正常工作日,在这个时间段,都会出现这样的情况。不过这不会造成任何问题,因为电厂对这样的高峰已有准备,会根据情况调整电力输出。
当这位妇女访问亚马逊网站时,网站会重点推荐它认为这位妇女喜欢的某些产品,这是按照她和其他数百万人过去购买和浏览的产品进行的预测。我们常常遇到预测性的行为,就像网络上发生的那样,例如谷歌会将搜索结果个性化,它认为你最感兴趣的结果被排在前面,但是,这些行为如此自然,我们很少注意到。
接下来,我们说说这位妇女所在的公司。堪萨斯城人寿保险公司的业务是预测人的残疾和死亡,它在这方面干得不错。这并不意味着它知道我的确切死亡时间,但它可以出色地预估像我这样年龄和状况(性别、收入、生活方式)的人能够活多久。堪萨斯城人寿保险公司成立于1895年。如果它的精算师不是好预测师,也许它早就破产了。
我们现实生活中有如此之多的像这样可以预测的事物,也许还不止这些。我就在谷歌上搜索密苏里州堪萨斯城明天的日出和日落时间,然后一分不差地记下来。这些预测是靠得住的,不论它们针对的是明天、后天还是50年后。同样的情形还包括潮汐、日食和月相。一切都可以根据钟表般精准的科学规律进行预测,准确度足以让拉普拉斯的预测之“魔”满意。
当然,我们可以立即点破可预测性的所有漏洞。
当一家不错的餐馆通知大家要开门营业时,它的确很有可能这么做。可是,它也可能失约。我们可以找出各种理由,例如餐馆经理睡过了头,火灾,破产,传染病威胁,核战争,或者是一场物理试验偶然制造出一个黑洞,吞噬掉整个太阳系。
同理,其他任何事物也是如此。如果未来50年内的某时,一颗太空巨石撞击地球,使地球偏离在太阳系中的轨道,那么,那个关于50年后日出和日落时间的预测,也会与实际情况略有偏差。生活中一切都是不确定的。假如将大脑内容上传至云计算网络的技术有可能开发出来,死亡就是不确定的;假如未来某个社会极其注重公益,极其富裕,以至于国家可以依靠慈善捐款来获得财政收入,那么税收也是不确定的。
那么,现实是像钟表还是像云?未来完全可以预测还是绝对无法预测?这些问题体现了错误的二元对立思想,我们在后面还将遇到许多这样的问题。我们生活的世界像钟表又像云。我们还可以把它比喻为一大堆杂乱无章的东西。不可预测性和可预测性艰难地共存于构成人体、社会和宇宙的复杂的关联系统中。某事物的可预测性如何,取决于三个因素:我们想要预测的内容,预测的时间远近,以及在什么情况下进行预测。
来看看爱德华•洛伦兹的领域。
在大多数情况下,气象预测关注的是未来两天的情况,通常十分可靠,但是,如果预测的是3天、4天和5天后的天气,准确性会越来越低。如果时间远远超过一个星期,问问掷飞镖的黑猩猩亦可。所以,我们不能说天气是不是可以预测的,只能说某些情况下在一定程度上可以预测,如果要更加严谨地表达这一观点,我们必须非常注意措辞。可以用以下看似简单的话语来描述时间和预测性的关系:我们要预测的对象时间越遥远,事实就越难以看清,总体上说,这是正确的。
但是,就这条定律而言,也可能存在例外,某些长期事件更容易预测。对股票市场中长期牛市的持续时间的预测能够为你带来好几年的收益,可是到了牛市末期,突然间,这个预测也会让你亏钱。在过去数千万年的时间里,预测恐龙将长期居于食物链的顶端,不会有任何问题,直到后来,一颗小行星引发了一场灾难,弱小的哺乳动物抓住机会在生态圈建立地位,并最终进化出试图预测未来的物种。除了物理定律,其他恒久事物是不存在的,因此要将可预测性与不可预测性区分开,不是一件容易的事,或者说完全做不到。
气象学家比其他人更清楚这一点。他们做了大量的预测,经常验证这些预测的准确性,所以我们知道期限为一天或两天的预测往往非常准确,而8天的预测往往不靠谱。借助这样的分析,气象学家能够加深对天气变化机制的理解,并微调他们的模型。然后,他们又尝试新的预测。先预测,接着评估准确性,最后修正模型。周而复始。这是一个永无止境的渐进提高过程,它说明了天气预报靠谱但改进过程缓慢的原因。
不过,这样的改进也许是有限的,因为天气就是非线性系统的典型例子。预测的期限越长,混沌就会有越多的机会令蝴蝶扇动翅膀,让预期落空。计算能力的飞跃和预测模型的持续改进也许会减小一些预测的局限性,但是改进将举步维艰,回报也会不断缩小,直至为零。我们能获得多大进步?无人知晓。但是,知道目前的局限性在哪里,这本身就是一项成就。
经历了其他诸多高风险的尝试之后,预测师仍然在黑暗中摸索。他们不知道自己的短期、中期和长期预测的准确性如何,也判断不出他们的预测能够达到什么样的准确性。他们能有的不过是模糊的直觉。这是因为预测—评估—修正过程只能在高端技术预测的狭小空间里展开,中央银行的宏观经济学家、大公司的营销能手和财务专家以及纳特•西尔弗(Nate Silver)这样的民意测验分析师的工作就属于高端技术预测。而更多的预测是,发布了,然后……一文不值。为什么呢?多数情况下,这是一个需求方问题:预测的消费者—政府、企业和公众—不需要准确性证明。因此,没有任何评估手段,也就是说,不会有任何修正。没有修正,就不会有改进。
请想象这样一个世界。人们喜欢跑步,但不知道普通人的跑步速度,也不清楚最棒的家伙们跑得多快,因为跑步的人从未同意遵守基本的比赛规则,例如沿着跑道跑,枪响后开始比赛,跑完特定路程后结束比赛;同时,没有独立的比赛官员和计时员来评判结果。在这个世界里,跑步速度提高的可能性有多大?不大。最优秀的跑步者的速度能够达到人类体能极限吗?同样,也许不能。
“重要的评估手段对改善人类状况的意义让我震惊,”比尔•盖茨写道,“如果你树立清晰的目标,制定有助于实现目标的评估方法,你就可以获得难以置信的进步……这似乎是基本的道理,但令人吃惊的是,人们经常做不到这一点,或者很难正确执行。”
他对获得进步的方法的叙述是对的,令人惊讶的是,人们在预测时很少这么做。即使第一步—树立清晰的目标—如此简单,也没有人去做。
你也许认为预测的目的是准确预见未来,可是这通常不是目的,至少不是唯一目的。有时预测是为了娱乐大众。想想CNBC的吉姆•克莱姆(Jim Cramer)和他招牌式的滑稽感叹词“booyah”,再想想《迈克劳林五人组》(The McLaughlin Group)这个节目的主持人约翰•迈克劳林(John McLaughlin),他咆哮着要组员们“用0~10之间的某个值”来给某事件发生的可能性打分,“0代表毫无可能,而10代表完全的、必然的确定性”。
有时,预测被用于引出政治议题,激励人们付诸行动,例如社会活动人士警告我们,除非我们改变方式,否则危险就会迫近,此时他们希望预测能发挥作用。
还有画大饼式的预测,这是银行的做法。它们付给知名评论员一笔钱,让其向富有的客户描述2050年的全球经济。有些预测是用来抚慰心灵的,做预测的人向受众保证,他们的信念是正确的,未来将如预期的那样到来。这类预测能够吸引铁杆支持者,让他们的思想享受热水澡。
大家很少认识到目标混乱的问题,因此评估和改进这两个阶段的工作还难以开始。情况一团糟糕,而且看起来没有好转的迹象。
然而,这种停滞不前的现象正是我成为“乐观”的怀疑论者的一个重要原因。
我们知道,人们有如此多的事物需要预测,政治、经济、财政、商业、技术、日常生活等各方面的。某种程度上,在某些情况下,可预测性确实存在。可是,还有许多事物是我们不知道的。
对科学家来说,未知事物令人兴奋,因为它提供了探索的机会。未知的程度越深,机会就越大。在如此多的预测领域,待完善之处多得令人吃惊,得益于此,科学家将拥有巨大的机会。要抓住这些机会,我们只需做到:一是树立一个清晰的目标,即准确性;二是制定严格的评估方法。
我的职业生涯有很大一部分时间被投入到这样的事情中。
那项关于“掷飞镖的黑猩猩”的研究是第一阶段。第二阶段始于2011年夏天,当时我的研究(还有生活)伴侣芭芭拉•梅勒斯(Barbara Mellers)和我发起了“精准预测项目”(Good Judgment Project),邀请志愿者报名参加,对未来进行预测。比尔•弗莱克接受了我们的邀请。除了他,第一年还有2 000人参加,在随后的4年里,成千上万的人加入这个计划。累计超过两万的求知欲强烈的非专业人士试图弄清楚在俄罗斯发生的抗议是否会扩散,金价是否会暴跌,日经指数是否会突破9 500点,朝鲜半岛是否会爆发战争,还有其他许多问题,都是与复杂的充满挑战性的全球性问题有关的。
通过改变试验条件,我们可以判断哪些因素有利于改进预测,在多大程度上改进,在哪种时间框架内效果最好。我们还可以知道,如果将某些最好的预测组合在一起,取长补短,能产生多么出色的预测。组合最佳预测,听起来很简单,实则不然。这是一个要求极其严格的项目,来自加州大学伯克利分校和宾夕法尼亚大学的跨专业团队以他们的天赋和辛勤工作做出了贡献。
精准预测项目虽然规模大,但也仅是情报高级研究计划局发起的更大规模研究工作的一部分。
不要看到这个乏味的名称就失去兴趣。情报高级研究计划局是一系列情报机构中的一员,这些机构都由美国国家情报局局长主管。情报高级研究计划局的职责是支持构想大胆的、有望改进美国情报工作的研究项目。国家情报局的一项重要工作是预测全球政治和经济趋势。
粗略估计,美国有两万名情报分析人员,他们的评估对象既有小谜语,又包括诸如以色列突袭伊朗核设施或者希腊脱离欧元区这样的大事件。
所有这些预测水平如何?这个问题不容易回答,因为与许多重要预测来源相似,这些情报机构从不热衷于花钱做预测。
这种厌恶情绪可以有多个解释,其中一些更值得认真对待,我们在后面再讨论。现在的问题是,此类预测对国家安全至关重要,然而我们几乎没有信心说这项工作很出色,甚至不能说它没有浪费所投入的数十亿美元和两万名情报人员。
为改变这样的现状,情报高级研究计划局开展了一项预测比赛,5个由该领域顶尖研究者领导的科学家团队相互竞争,对情报分析员们每天处理的那种棘手问题做出准确的预测。精准预测项目团队就是5个团队之一。每一个团队都要积极开展研究项目,自由设计任何它认为有用的方法。
按照要求,团队必须在美国东部标准时间上午9点提交预测,从2011年9月至2015年6月,每日如此。这项比赛要求各团队在同一时间对同样的问题做出预测,从而创造公平竞争的环境,并搜集大量关于导致好的预测的因素有哪些、准确性如何、什么时候发挥作用的数据。4年来,情报高级研究计划局提出了近500个与国际事务有关的问题,时间框架比我早期的研究短,绝大多数预测针对的时间在1个月以上、1年以下。我们总共采集了100万条个人预测。
第一年,精准预测项目团队在60%的问题上所做的预测准确性高于官方的对照组。第二年,78%。这个团队还击败了来自大学的竞争者,包括密歇根大学和麻省理工学院,而且差距不小,从30%~70%不等。它甚至战胜了可以接触到机密数据的专业情报分析师。两年后,精准预测项目团队的成绩远远超过来自学术界的竞争对手,于是情报高级研究计划局停止了其他团队的比赛资格。
稍后我再讨论细节,现在我们要专门谈谈这项研究得出的两个关键结论。
其一,准确的预测是可以做到的。有些人,例如比尔•弗莱克,绝对具有洞察未来的能力。他们不是能够看到未来数十年的宗教导师或者祭师,但是他们掌握了一种实实在在的可评估的技能,通过它来判断高风险事件在未来3个月、半年、1年或者1年半的发展趋势。
其二,这些超级预测家为什么如此出类拔萃?原因绝对和他们的身份无关,而是与他们的方法有关。洞察未来的能力并非天赐的神秘禀赋。它是独特的思维方式、信息搜集方法和不断更新观念的产物。任何脑子不笨、喜欢思考、意志坚定的人都可以学习和培养这样的思维习惯,他甚至完全可以从简单的课程入手。
有一个研究结果特别让我惊讶,那就是,一份涵盖《摩西十诫》中总结的某些基本观念(本书将会探讨这些观念)的教程就能产生明显的效果。它的阅读时间只需要大约60分钟,但它在一个赛季中能提高近10%的准确性。是的,10%听起来也许不多,可是获得这10%不需要什么成本,而且,绝对不要忘了,预测能力保持长期小幅进步,累积起来就可观了。
我和亚伦•布朗谈过这个话题,他是一位华尔街老牌作者,也是拥有超过1 000亿美元资产的对冲基金公司—AQR资本管理公司的首席风险官。“10%的进步不是很明显,因此难以察觉,”他说,但如果持续下去,“它就能让你成为生存下来的长期赢家,而不是随时都有可能破产的家伙。”我们很快就要提到的一位世界级扑克牌玩家完全赞同这样的观点。她说,大牌选手和业余选手的差距在于,前者知道赌注胜算为六四开与四六开的差别。
可是,如果仅仅通过评估就能提高预测能力,如果预测能力提高后能带来可观的回报,那么,为什么评估不是标准做法?
很大一部分原因是有些事情我们确信自己了解,其实并不了解,例如托马斯•弗里德曼是否是一位准确率高的预测师。我会在第二章探讨这种心理。几个世纪以来,它阻碍了医学上的进步。当外科医生最终认同他们的经验和学识不能作为判断某种治疗手段是否有效的可信依据时,他们求助于科学实验,医学终于开始突飞猛进。在预测领域,需要爆发一场同样的革命。
这并非易事。第三章将分析,要像现代医学检验治疗手段那样严格检验预测的准确性,应该做哪些工作。这是一场比表面上看起来更加艰巨的挑战。
20世纪80年代末,我总结了一套研究方法,并进行了当时规模最大的关于专业政治预测准确性的测试。其中有一项成果多年之后才发表,就是如今陷我于尴尬境地的那个“包袱”。
而这项研究的另一个发现却没有引起同样的注意,尽管它重要得多:一群专业人士拥有不太明显但真实存在的洞察未来的能力。
一边是那些具有远见卓识的专家,另一边是那些如此糟糕以至于将整体水平拉低至掷飞镖的黑猩猩档次的人,他们的不同之处是什么?不是某种神秘的天赋,不是获得他人无法获得的信息的权力,也不是独特的信仰。
其实,从一组相当广泛的观点来看,他们思考的内容不重要,重要的是他们的思考方法。
情报高级研究计划局在一定程度上受到这个绝妙发现的启发,举办了前所未有的预测大赛。第四章会讲述这项赛事的经过和发现超级预测家的故事。为什么他们这么出色?第五章至第九章会回答这个问题。当你遇到他们时,很难不惊讶于这些人的聪慧,所以你会猜测是智力上的差距使他们与众不同。你错了。他们的数学水平也令人印象深刻。和比尔•弗莱克相似,许多人都拥有数学和理学双科学位。
那么,秘密就在于神秘的数学吗?你又错了。即使那些职业是数学家的超级预测家也很少使用数学。他们往往还是新闻迷,时刻追踪最新动态,定期更新预测,因此,也许你会忍不住将他们的成就归因于在这项工作上投入了无尽的时间。然而,你还是错了。
超级预测需要的是最低程度的智力、数学才能和世界知识,任何读过严谨的心理学著作的人都很可能具备以上先决条件。
那么,到底是什么让预测升级为超级预测?正如那些在我的早期研究中表现出真正洞察能力的专业人士所显示的那样,最重要的是预测家的思维方式。
我会详细论述这一点,大体而言,超级预测需要的头脑要做到思想开放、认真谨慎、求知欲强,更重要的是,要有自我批判精神。专注也必不可少。产生更优预测的思维方式离不开勤奋。只有意志坚定的人才能持续地发表合理的预测,所以我们的分析总是表明,坚持提高自我是获得良好预测成绩的最有力的保障。
在最后几章,我会阐明如何处理准确预测的需求和高效率的领导方式之间显而易见的矛盾,回答我认为我的研究所面对的两项最艰巨的挑战是什么,并以对未来趋势的思考作为全书结尾,对一本关于预测的书来说,这个结尾恰如其分。
关于预测的预测
也许你认为预测是毫无希望的过时之举。毕竟,我们生活在一个由嗡嗡作响的强大计算机、晦涩的算法和大数据构成的时代。我所研究的预测,其核心是主观判断,即人们思考后得出结论,别无其他。现在难道不正是结束这种草率的推测行为的时候吗?
1954年,才华横溢的心理学家保罗•米尔(Paul Meehl)写了一本小册子,掀起了一场轩然大波。
他回顾了过去20次研究,在这些研究中,见多识广的专家对一些事情做出预测,例如一位大学生是否能在大学里取得成功,一名假释犯人会不会重返监狱。
研究表明,他们的预测准确性甚至不如某些简单的算法,这些算法的功能只是对能力测试分数和过往行为记录这样的客观指标进行统计,然后推测结果。米尔的结论让很多专家忐忑不安,但是之后的研究(现在已经超过200次)显示,多数情况下,统计算法击败了主观判断,在少量研究中,二者通常打成平手。
考虑到算法迅捷又便宜,而主观判断则不然,那么,在平手的情况下,天平偏向算法。如果你有被证明有效的统计算法,就用它吧。这个观点现在已无争议。
然而,上述见解从未威胁到主观判断的统治地位,因为我们很少恰好遇到解决眼前问题的有效算法。用数学取代简单而古老的思维方式,是不切实际的,无论是1954年还是现在,都是如此。
但是,信息技术的惊人进步意味着,在人与机器的关系上,我们正经历历史性的飞跃。
1997年,IBM(国际商业机器公司)的深蓝计算机(Deep Blue)击败了国际象棋冠军加里•卡斯帕罗夫。现在,商业化的国际象棋程序可以让任何人俯首称臣。2011年,IBM的超级计算机沃森(Watson)在游戏节目《危险边缘》中战胜人类冠军肯•詹宁斯和布拉德•鲁特。这是一次难度大大超出以往的计算机挑战,但是沃森的工程师们成功了。
今天,想象在一场预测比赛中,超级计算机将超级预测家和超级评论员打得落花流水,这不再是异想天开。在那之后,人类预测师仍然存在,但是就像《危险边缘》的人类参与者那样,我们观看他们做预测,仅仅是为了娱乐。
于是我与沃森的首席工程师戴维•费鲁奇(David Ferrucci)进行了交谈。我相信沃森可以当场轻松地回答出关于现在或过去的问题,例如“过去10年哪两位俄罗斯领导人互换了工作?”但是,沃森或者它的数字后代要用多长时间解答诸如“未来10年这两位俄罗斯领导人还会互换工作吗”这样的问题?我对费鲁奇在这个问题上的观点很好奇。
1965年,博学多才的赫伯特•西蒙(Herbert Simon)认为,仅仅再过20年,机器可以从事“人类能够从事的一切工作”的世界就会到来。这反映了当时人们在盲目乐观的情绪下提出的某一类观点,也是在人工智能领域耕耘了30年的费鲁奇现在言论更加谨慎的原因之一。
费鲁奇指出,计算机技术正大步向前。准确识别模式的能力越来越令人瞠目。机器学习,连同方兴未艾的对学习过程起到辅助作用的人机交互技术,预示着更多的根本性进步将会出现。“机器预测技术的发展将表现为指数曲线,而我们现在算是处于曲线的底部。”费鲁奇说道。
但是,“哪两位俄罗斯领导人互换了工作”和“两位俄罗斯领导人还会互换工作吗”这两个问题存在巨大的差异。前者是历史事实,计算机可以查到。后者需要计算机运用丰富的知识来推测弗拉基米尔•普京的意图、德米特里•梅德韦杰夫的性格和俄罗斯政治由此引发的变动,然后整合所有信息,形成自己的判断。
人类总是在做这样的判断,但这个过程并没有因此变得容易,也就是说,这样的任务难度超级大,所以说,人的大脑不可思议。即使计算机的能力正在飞速提升,超级预测家所做的那种预测对它来说仍然遥不可及。费鲁奇也不能肯定地说,“主观判断”这种事物总有一天会被送进史密森尼博物馆作为陈列品。
机器也许越来越擅长“模仿人类的思想”,进而更好地预测人类行为,但是,“模仿、反映思想与产生思想是有区别的”,费鲁奇说。思想这片空间将始终是人类的主观判断的私有领地。
在预测领域,如同其他领域一样,我们将继续目睹人类的主观判断被逐渐取代,最终让白领们惊慌失措。但我们也将见到越来越多的联合体,例如在“自由式国际象棋”比赛中,人类与计算机组成参赛队伍,人类利用计算机无可争议的力量,偶尔也会盖过它的风头。结果,联合体(有时)能够击败完全由人类或者机器组成的赛队。我们要重新定义人类与机器的二分法,因为加里•卡斯帕罗夫和深蓝计算机的联合体也许比纯人类或纯机器形式更具活力。
费鲁奇认为权威模式将会过时,因为它令许多政策辩论显得如此幼稚可笑:“你用善辩的保罗•克鲁格曼作为例子,我就以不爱辩论的尼尔•弗格森来反驳你;你提到托马斯•弗里德曼的专栏文章,我则以布雷特•斯蒂芬斯(Bret Stephens)的博客驳斥之。”
费鲁奇看到了这长长的黑暗隧道尽头的一线亮光,他认为,过去人们倾听某些仅仅因为其主观判断而知名的专家的建议,今后这种现象会“越来越少见”。人类的思想受到自身心理缺陷的困扰,这个事实只是在过去10~20年才得到广泛认识。“所以,我想做的是让人类专家与计算机相结合,以克服人类认知的局限性和偏见。”
如果费鲁奇是对的(我是这么认为的),那么未来我们必须将基于计算机技术的预测与主观判断结合起来。所以,现在是严肃对待这二者的时候了。