2024年9月5日,外滩大会上,中国工程院院士、之江实验室主任、阿里云创始人发表主旨演讲,回顾了人工智能概念的起源过程,分享了他对数字基础设施、算力以及人工智能产业发展趋势的观察与展望。
王坚:各位来宾,非常感谢有这么一次机会,我算是把过去几年甚至几十年有关的一些想法、一些教训或者一些经验在这儿跟大家分享一下。
今天我自己找了三个关键词:AI、AI+跟AI基础设施,这三个关键词都绕不开一个关键词叫AI,刚才Michael I. Jordan也讲了,AI可能一千个人有一千个人的理解,一千个人有一千个人的想法。但是今天碰巧,这三个不同的方法,AI、AI+和AI基础设施,在今天被结合在一起了。
人工智能有很长的过去,却只有非常短的历史
第一个是我经常说的一句话,我说人工智能有很长的过去,却只有非常短的历史。其实这是一个非常非常纠结的一件事情,最困惑的就是到今天为止,人工智能到底它在说什么事情呢?还是值得非常的探讨一下的。
大概在(20世纪)40年代末、50年代初,图灵写的一篇文章叫《Intelligent Machinery》(智能机器),我自己觉得这是一个很长过去的开始,如果你要追关于机器智能的事情,可能可以追到几百年以前。
图灵在这篇文章里面,谈了一些很有意思的事情,这篇文章发表在心理学一个哲学杂志上,第一次在探讨关于机器跟智能之间的关系。大家知道,在那个时候“计算机”这个词还没有完全出来,大家习惯叫做“Computing machinary”,这就是为什么美国计算机学会叫ACM的原因。那个时候“计算机”虽然没有词,但是图灵在那篇文章第一次用了“数字计算机”这个词。所以,这篇文章它的深远的意义,还是到今天为止看,都是非常值得重新思考的,我们很多最早的概念都是从这边来的。
当然,大家都会讲到达特茅斯这个会,当时Michael I. Jordan特别讲了Cybermetics(控制论),我听完以后我就很感触,如果当年那个会不在达特茅斯开,可能这十个人的想法就被维纳给灭掉了。可能我们今天还是在讲的叫Submetics来称呼今天说的人工智能。但事实上说不定从单词角度,可能用Submetics会更好一点,但人工智能就这么流行了。为什么在Herbert Simon这边我打了一个红色的框,就是来设想我自己对人工智能的理解,就是从Herbert Simon开始的。这个人很神奇,他是个心理学家,但是全参与了这个会,得了诺贝尔经济学奖。他第一次访问中国是1972年,以美国计算机协会的名义到中国来的,80年代初又以美国心理学会的名义到了中国来,那时候我在大学读三年级,他到我们系讲了关于人工智能。
可一个大学三年级的学生在中国,在80年代初,有一个人告诉你,人工智能在下面十年会有一次天翻地覆的变化,你大概可以设想一下,那时候我有多么的激动。但事实上等了十年,没有什么发生,所以后来该干什么就去干什么了。但事实上里面的很多最基础的东西,在那个时候也被提到了,甚至大家今天知道的神经网络,我印象很深,当时在80年代末的时候,有一本教课书叫PDP(Parallel Distrbuted Processing),里面通篇讲的都是神经网络理论,那时候讲的每一个层两个节点只有三层,大概你能做到那个程度就结束了,但是今天的规模跟那个时候没法比。
所以我想说,今天的人工智能跟80年代初大家讲的同一个人工智能,是一个完全不同的人工智能。我刚才讲了,刚才Michael I. Jordan也讲到这了一点。
为什么AI是一个非常短的历史呢? 2017年,Google提出了Transformer这件事情。今天我们能够谈人工智能,又重新回到了大家的视野,重新在产业上有那么大影响的话,就是从2017年开始的。所以,2017年以前的人工智能跟我们今天说的人工智能还是有一次非常非常不同的差别的。我想这就是我说只有7年历史的原因。
当然,这段历史就是从一篇文章开始的,大家都知道。但是我想强调一下的事情是,这篇文章的8个作者现在都不在Google,听说有一个最近又会回去,但没关系,尽管他发明了很多东西,但是没有Google什么事。这里面有一些发明今天大家被忽视掉的,比如说他第一次有了Token这个概念,听起来好像也没什么了不起的,但是大家都知道今天一个商业服务都是用Token来计价的,大家可以设想一下如果里面最基本的计价逻辑都不清楚的话,大概是不会有一个好好的产业的。更不用讲,待会儿我主题里面讲到的关于基础设施的事情。同样的,大家都知道在Google那个时候的前后(发表这个文章的前后)有一家公司叫OpenAI,OpenAI的出现站在我的角度来说,就是让我们重新思考一下创新的机制是什么?所以那就有了在2022年GPT的发布。
这两件事情结合在一起,我总是觉得是一件很怪的事情,所以我说了一句话,Google很行,Google也很不行。Google很行,中国都在讲从0到1的创新,Google是100%完成了从0到1的创新,甚至还要多一点。为什么Google不行呢?大家都可能知道Eric Schmidt前段时间在斯坦福有一个发言,搞的沸沸扬扬的,说的Google很不行,那确实也不行,为什么呢?他没有创造出一个东西像Open AI创造出的那么有价值,对社会来说。
所以这是让我们重新思考这个创新的机制到底是什么?它不是一个简单的从0到1创新,不是一个简单的你有一个好的想法,这中间的机制是远远超出我觉得在今天学者甚至产业界可以来理解的,我觉得这也是一个对我们最大的挑战,所以我用了Google很行、Google也很不行。
在ChatGPT后面,它的光芒对大众而言,不是对业界而言,是被掩盖了很多事情的。大家都知道AlphaFold,特别是AlphaFold3出来了,但是很少人会谈论说,它其实背后还是Transformer+Diffusion,大家今天在讲能生成一个图片,能生成一段视频,大家会讲到Transformer+Diffusion,可是很少人理解,为什么Google那篇文章有那么大的影响?也就是说到最后大家今天听到的一些最基本的东西,到最后也离不开Transformer,当然从AlphaFold2到Alphafold3,中间用了一个Pairformer,但是最后的东西还是这个Transformer。
从ChatGPT到AlphaFlod、到今天大家在媒体上经常会看到关于天气预报的时候,这是三个跨度非常大的应用。但是他们的背后有一个最基本的东西是脱离不掉的,就是Transformer。所以,我想AI为什么只有7年历史,大家再回过头来看,事实上是你愿意不愿意我们生活在Transformer这样一个阴影下,也可能以后是一个阳光灿烂的东西。
人工智能+到底是什么
在这样的背景下再回过头来,在李强总理的政府工作报告当中多次谈到了人工智能,同时提到人工智能+。大家设想一下,在Transformer这个逻辑下,我们要理解的人工智能+到底是什么?大家今天一谈到人工智能+的时候就会简单的,我加一个行业进去,这是我用我自己的话来讲,没有再比人工智能+后面简单加一个行业,把人工智能庸俗化的做法了。所以反复思考人工智能+到底是什么?我们再来扒开来看GPT或者是今天要说的这件事情的话,可能需要有一次重新的思考的。如果ChatGPT如果在人工智能+这个逻辑下,ChatGPT不是一个应用,它是个应用平台。就像在上一个年代的offce一样,它不是一个应用,是一个应用平台。但如果把GPT再拆一拆,变成一个基础模型的话,事实上Chat就是一个应用,所以ChatGPT就是GPT+Chat,这是我的理解。
我想多说一句,Chat不是一个简单的应用场景。大家都知道微软跟OpenAI合作过程当中,不只是做了Chat,其实他们到比尔盖茨家里讨论了GPT这样的东西可以用到什么场景,最后只有Chat是最革命的,所以变成了产品。他们做了一大堆很有用,但是没有革命的东西,后来都写成了书。所以有时候我经常开玩笑,这个书是很危险的,不是革命的东西都写成了书,可能最革命的东西做成了产品。这是我们今天真正发生的事情。
所以,我想没有Open AI这个公司的人对Chat本身有更深的了解。今天我还是要讲一句话,当你做不出一个比ChatGPT好的这样一个东西的时候,至少有两个原因在约束你,第一,当然是你的技术有没有做好,就是模型;第二,你对这个问题理解的深度,你能不能真正找到这个领域的问题,事实上是你约束的最大的一个前提。我们往往在很多时候对这个问题不理解,以为有了GPT就可以解决很多的问题。
当然,我今天讲的重点是,这个+到底是什么?这个+就让我想到了,当时Chat做这件事情的时候,事实上只是反映了当年比尔盖茨的一个愿景,就是让计算机能听、能说。所以我想,今天因为有了ChatGPT以后,当计算机变成一个手机以后,我们今天就做到了这一点。
那么这背后真正的+的机制就是ChatGPT当我们讲那个+的时候,不是+什么东西,而是怎么加,更加重要的是一个机制的创新。这句话听起来很抽象,再把它回过头来,ChatGPT是什么意思?这个+就是OpenAI这家公司,没有Open AI这家公司,GPT和Chat是不会变成这样一个影响大家的产品的。
Open AI这家公司为什么是一个机制的创新呢?
到今天为止,大家都知道Open AI是一个怪物,也就是说它有Nonprofit(非盈利)的AI,也有OpenAI LP这样的东西。一个Nonprofit这样一个机构,跟一个商业机构,跟OpenAI这么一个主体里面,被这样莫名其妙的存在在一起。所以过去发生的所有事情,都跟OpenAI,大家讲的OpenAI都是讲的OpenAI LP,但是大家知道它的最早的创办是一个非盈利机构的话,大家可以想象,它中间的机制是多么复杂的一件事情。我经常跟投资人讲,你用传统的方法是投不出Open AI这样一家公司来的。
当然,因为这样的成功,让我们重新反思了一下,黄仁勋说了一句话,ChatGPT是人工智能的iPhone时刻。这句话被很多人引用,我自己一开始听的时候也很激动,后来想了想,不知道在说什么?为什么呢?因为Chat GPT是什么?也没有完全说清楚,人工智能是什么?也没有完全说清楚。iPhone到底是什么?也没有说清楚。把这三个说不清楚的东西放在那里变成了一句话,这是让我困惑了很长时间。大家也不要觉得说清楚iPhone是什么,(其实)是一件很困难的事情,我说一个现象就知道了,大家说起这个iPhone都觉得App Store是它非常重要的事情,今天任何一个人发言都说生态多么的重要,可是很少有人理解。你们去看史蒂夫·乔布斯发布第一代iPhone的时候是没有App Store的。如果你要讲它的生态系统,当年跟史蒂夫·乔布斯一起发布iPhone第一代的那些公司,今天都不见了。所以它到底是什么?也是值得我们非常深思的。
当然,这句话我自己觉得,它其实抄袭了另外一句话,这是当年我自己看了、看了非常激动的,就是当AlphaFold出来的时候,AlphaFold2出来的时候,有人说了一句话“AlphaFold是生物学的ImageNet时刻”,我自己觉得这是真正反映了技术发展的背后的。当然这个就回到了也是那篇文章,杰夫跟他的两个学生写的,大家只要在做机器学习也好,做图象识别也好,一定知道这篇文章。但是你把这篇文章抽象出来就三个东西,就是今天构成人工智能大家天天讲的三个东西,ImageNet就是有组织的数据,然后它有一个模型,那时候叫CNN,然后+GPU。这是第一次一篇文章完美的把三个东西结合在一起。只不过这三个东西在那个时候都谈不上是新的,ImageNet也存在了很多,CNN也不是一个新的算法,GPU那个时候在每一个网吧里面都有,但是是这篇文章、这三个学生把它结合在一起,使得GPU模型和数据成为做这个行业的一个最基本的标准,特别是GPU,在那篇文章之后才成为学术界的标准。在他的这篇文章之后,才成为工业界的标准。而当时他们用了两块GPU卡,是一个非常非常普通的GPU卡,尽管这两张GPU卡在当时大概已经超过了上万个CPU核的算力。但是我刚才讲了,这是在中国每一个网吧里面都有的GPU卡,但是因为这样发生了一次非常大的变化。所以,算力重不重要?算力重要。但是在创新阶段,大家知道,没有比人的创造力再重要的事情。
技术变成基础设施,就会对人类产生最长远的影响
到了今天发生的变化,为什么要引出基础设施呢?就是因为规模。也就是说,当数据、模型、算力的规模都变成了一个巨大的变化的时候,这个时候一定要引入新的东西,不然它没法解决了。这个也是做IT、做程序设计看到这句话以后很激动的,“一岁孩子爬行速度的千倍就是超音速喷气机的速度”,E.Dijkstra结构程序设计倡导者(Pascal讲的)。也就是说,在世界上任何事情的规模增加了一千倍,它就会发生天翻地覆的变化。
大家都知道,在我刚才讲的三个组合的规模上,在每一个单元都超过了一千倍。正是这一千倍,使得今天我们绕不开一个最基本的东西,就是AI的基础设施。大家知道,一旦有一个事情要谈到基础设施的时候,我觉得这是一个技术渗透的终结的形式。你看人类发展历史上,任何技术的发展,什么技术会对人类产生最长远的影响?就是它变成了基础设施。当然AI基础设施不是我发明的,今天大家都在谈的。所以,为什么从AI到AI+,到今天我们可以讲AI基础设施,是一个非常值得我们深思的。
这是红杉在一次研讨会上用的一个PPT,我拿过来了,拿过来的目的只是为了让大家看最下面一行,在云时代、移动时代、AI时代,他们觉得的基础设施就是云计算。他把苹果是划到了基础设施这一类的,同样的大家可以看到在今天,他把英伟达也划到了基础设施那一类。所以,这是一个非常非常有意思的分类方法。这个也不奇怪,为什么英伟达大家都觉得他应该去做云计算。
我看到这张PPT的时候也非常激动,这张图不是我画的,但是这个解释是我解释的。这是6个在美国做AI的独角兽,大家看到背后对基础设施的支持跟有意思,OpenAI大家都知道,它得到了100亿美金的投资,背后是Microsoft,第二的背后是AWS。大家看到在这些企业真正背后的排名是什么?全世界排名第一、第二、第三、第五、第六的云计算服务商,都是今天美国独角兽公司的背后支撑的来源。这里当然大家看到很神奇的一件事情,在这里有第一、第二、第三、第五、第六,就是没有第四,第四就是阿里云。这种基础设施对将来这些事情的影响,从计算这个角度,也能看得出来。当然我想从另外一个角度也反映了这个产业之间的差距到底在哪里。
所以,从这个角度让我想起了一句话,微软很不行,微软也很行。也就是说他在人工智能没有做出Transformer这样的东西,但是他因为云,因为这个基础设施,他在跟Open AI创造出这么一个今天我们可以看到的东西出来的话,我自己觉得你从另外一个角度也可以看得出来好像微软不行,但是微软还是很行。
所以在AI、AI+、AI基础设施这个逻辑上,所有人都是可以做他自己可以创造历史的事情。我前几天看到一个创业公司,为了证明他创业的重要性画了一张图,我相信今天老是讲数据、讲计算、讲算法,但是大家设想一下,这些东西不在一个基础设施里面,事实上是没有价值的。所以,我把这个红框里面画出来,很有意思的告诉大家,数据是基础设施核心的组成部分,数据不只是一个模型的附属品,数据也不只是一个计算的附属品,只有所有这些东西变成一个完整的基础设施的时候,我们才会有那一次更加激动人心的创新。如果大家看最前面里面讲到的事情,去做了两个区分,在传统的IT时代的云计算以及在AI时代的云计算,尽管这两种计算有差别,但都是云计算。同样的他数据也做了区分,在传统意义上的数据,跟在AI这个意义上的数据,他是做了这么一个细微的区分的。时间原因具体不展开讲了。
AI、AI+、AI基础设施,一起创造未来
最后总结一下,当你看AI、AI+、AI基础设施的时候,你就会发现,这个世界不但技术在革命,机制也在革命,基础设施也在革命。没有比这三项革命在同一个时间发生再令人激动了。所以,我想这些革命正在创造未来。谢谢大家。
【根据速记整理,标题为编者所加】