文:天空之城·城主
最近几天,AI教父Hinton的一个关于AI本质认知的高屋建瓴的访谈有着很广泛的传播,而被誉为AI教母的李飞飞近期也备受关注,她创立了空间智能公司,并在TED做了演讲。
在2023年底,Hinton和李飞飞有过一次经典的同台对话,110分钟干货满满,现在回头看来,这是AI界具有历史地位的两位大咖重要的面对面时刻。
这唯一的一次同台深度访谈,中文世界当时似乎没给予应该的关注(和很快发生了OpenAI宫变大新闻有关系)。错过这次访谈是有点可惜的,信手引用本城B站一位粉丝的留言:
这是一个回顾人工智能大爆发过程的对话访谈节目。看过以后,才了解斯坦福李飞飞为什么那么有名。她敢走,敢能走自己选择的这条路,再度阐名西方自从文艺复兴以来,为什么科学有长足的进步
简而言之,这是一次不容错过的深访,本城特此整理,访谈全文书面版约2.5万字和重制视频,这里和读者分享:
主持人:
我们希望这将是一场非常有趣的讨论。这是他们第一次公开在一起。所以,我认为这将是一个非常有趣的对话。
让我快速对他们的背景做一些更深入的解释。Geoffery经常被称为人工智能教父。他获得了图灵奖。他是多伦多大学名誉教授、Vector Institute联合创始人,还指导了许多后来成为全球人工智能领导者的人,包括大公司和许多世界顶级学术研究实验室的领导者。所以当我们说教父时,确实如此,Geoff的很多子孙后代都在引领人工智能的世界,而这一切都要归功于多伦多。
Feifei是斯坦福以人为本人工智能研究所的创始主任,斯坦福大学教授。她是美国国家工程院、美国国家医学院和美国艺术与科学学院的当选院士。在2017-18年斯坦福大学休假期间,她担任谷歌副总裁,担任谷歌云AI ML首席科学家。关于Feifei,我们还有很多很多话要说,但她的学生中也有很多人后来成为全球该领域的领导者。
非常重要的是,对于那些还没有听说过的人来说,Feifei将在几周后出版一本书。这本书将于11月7日出版。这本书的标题是《我眼中的世界:人工智能黎明的好奇、探索和发现》。我已经阅读过这本书,它非常出色。我强烈建议你们都去购买一本。我想把Geoff写的封底推荐语读给你们听,因为他的描述比我能说的要精彩得多。这是Geoff的评价:
李飞飞是首位真正理解大数据力量的计算机视觉研究人员,她的工作为深度学习打开了大门。她对自己所推动的人工智能技术的巨大潜力和潜在危险进行了紧急而清晰的描述。在这个历史的关键时刻,她的呼吁采取行动和承担集体责任是迫切需要的。
因此,我强烈建议大家预订这本书,并在它出版后立即阅读。
最后,我要感谢Feifei和Geoff的加入。我认为,如果没有他们两人,现代人工智能时代就不会存在,至少不会以现在的形式存在,这并不夸张。让我们回到我认为的大爆炸时刻,也就是AlexNet和ImageNet的诞生。
Geoff,你是否愿意从你的角度带我们回顾一下那个时刻,也就是11年前的事情?
Hinton:
在2012年,我的两个非常聪明的研究生赢得了一场公开竞赛,展示了深度神经网络可以比现有技术做得更好。然而,如果没有大数据集来训练他们,这是不可能的。到那时为止,还没有一个标记图像的大数据集,而Feifei负责了这个数据集的创建。我想问Feifei在整理这个数据集时是否遇到了任何问题。
Feifei:
谢谢你,Geoff,也谢谢你,Jordan,以及多伦多大学。在这里真的很有趣。你提到的数据集叫做ImageNet,我从2007年开始构建它,并在接下来的三年里与我的研究生一起完成了它。你问我在构建它时是否遇到了问题?我该从哪里开始呢?即使在构思这个项目时,我也被告知这真的是一个坏主意。我当时是一名年轻的助理教授。我记得那是我在普林斯顿大学担任助理教授的第一年,例如,我在该领域非常受人尊敬的导师,如果你知道学术术语的话,这些人将为我撰写终身教职评估,实际上,在我告诉他们这个计划是什么之后,他们真的好心地告诉我,请不要这样做。所以那个人应该是Jitendra,他建议说,如果你这样做,你可能会很难获得终身教职。然后我也试图邀请其他合作者,但在机器学习或人工智能领域没有人愿意接近这个项目。当然,也没有资金。
对于那些不熟悉ImageNet的人,我来简单描述一下它。ImageNet是在2006年、2007年左右构思出来的,我构思ImageNet的原因实际上有两个。首先,我认为Geoff,我们有相似的背景,我接受过科学家的培训。对我而言,从事科学研究就如同追寻北极星一般。在人工智能领域,特别是视觉智能方面,我认为物体识别——即计算机识别图片中的桌子或椅子等物体的能力,被称为物体识别,这必须是我们领域的北极星问题。我认为我们需要真正解决这个问题,因此我想定义这个北极星问题。这就是ImageNet的一个方面。
ImageNet的另一个方面是,我意识到当时的机器学习确实有些停滞不前,我们正在制作非常复杂的模型,但却没有足够的数据来驱动机器学习。用我们的行话来说,这实际上是泛化问题。我意识到我们确实需要重新开始,从数据驱动的角度重新思考机器学习。因此,我想创建一个在数量和多样性等方面前所未有的数据集。
经过三年的发展,ImageNet成为了一个精选的互联网图像数据集,共计1500万张图像,涵盖22000个概念、对象类别概念,这就是数据集。
Hinton:
仅供比较,在多伦多,我们同时还在制作一个名为CIFAR-10的数据集,该数据集包含10个不同的类别和60000张图像,这项工作非常繁重。CIFAR慷慨地支付了每张图片5美分的费用。
因此,您将数据集变成了一场比赛。
请向我们介绍一下这意味着什么,然后我们将快进到2012年。
Feifei:
对,我们在2009年制作了这个数据集。我们勉强把它做成了学术会议的海报,但没有人关注。我当时有点绝望,我相信这是可行的方法,然后我们就把它开源了。但即使有了开源,它也没有真正起步。
因此,我的学生和我想,好吧,让我们再多做一点,提高竞争水平。让我们创建一个竞赛,邀请全球研究界参与通过ImageNet进行对象识别的问题。所以我们做了一个ImageNet竞赛,我们从朋友和同事那里得到的第一个反馈是它太大了。当时,你无法将它放入硬盘中,更不用说内存了。
因此,我们实际上创建了一个较小的数据集,称为ImageNet挑战数据集,它只有100万张图像,涵盖1000个类别,而不是22000个类别,我想这是在2010年发布的。你们在2011年就注意到了。
Hinton:
是的。在我的实验室里,我们已经有了深度神经网络,可以很好地进行语音识别,然后Ilya Sutskever说,我们拥有的应该能够赢得ImageNet竞赛。他试图说服我我们应该这样做,我说,这是大量的数据。他试图说服他的朋友Alex·沙舍夫斯基,但Alex并不感兴趣。因此,Ilya实际上对所有数据进行了预处理,将其转化为Alex所需的格式。你减小了图像的尺寸。是的,他确实将图像尺寸缩小了一些,并为Alex进行了适当的预处理。最后,Alex同意了这种做法。
与此同时,在纽约的Yann LeCun实验室,扬急切地希望他的学生和博士后研究这个数据集。他认为,第一个将卷积网络应用于这个数据集的人将会胜出,但他的学生们对此并不感兴趣。他们都忙于其他事情。因此,Alex和Ilya继续他们的工作。通过参加去年的比赛,我们发现我们的技术远胜于其他技术,所以我们知道我们将赢得2012年比赛。
然后,还有一个政治问题。我们认为,如果我们能证明神经网络赢得了这场比赛,计算机视觉专家,尤其是Jitendra,可能会说,这只能说明这个数据集不够好。因此,我们必须提前让他们同意,如果我们赢得了比赛,那就证明了神经网络是有效的。于是,我给Jitendra打电话,我们讨论了我们可能使用的数据集。我的目标是让Jitendra同意,如果我们能处理ImageNet,那就证明神经网络确实有效。经过一番讨论,他建议我处理其他数据集,我们最后达成了共识:如果我们能处理ImageNet,那就证明了神经网络是有效的。Jitendra记得他是建议我们处理ImageNet的,但实际上情况正好相反。我们成功了,这真是太棒了。
我们的错误率略高于标准技术的一半,而这些标准技术已经由非常优秀的研究人员进行了多年的调整。
Feifei:
我记得当时的标准技术是稀疏化支持向量机。所以,你们提交了比赛结果。
我记得那是在八月底或九月初的一天晚上,我收到了正在运行这个项目的学生的电话或电子邮件,因为我们在服务器端保存了正在运行的测试数据。我们的目标是处理所有参赛作品,以便选出获胜者。然后,我想是在那年十月初,计算机视觉领域的国际会议ICCV 2012在意大利佛罗伦萨举行。我们已经预定了会议上的年度研讨会。我们将宣布获胜者。这是第三年,所以在我们必须处理获胜团队的几周前。
因为这是第三年,坦白说,前两年的结果并没有让我感到兴奋。而且,我当时还是一名哺乳期的母亲,所以我决定不参加第三年的比赛。因此,我没有订票。我觉得,对我来说,那太远了。
然后那天晚上,我收到了结果,是电话还是电子邮件,我已经记不清了。我当时对自己说,该死的,Geoff,现在我必须买一张去意大利的机票,因为我知道那是一个非常重要的时刻,尤其是对于卷积神经网络,这是我在读研究生时学到的经典算法。当然,那时从旧金山飞往佛罗伦萨只有中途停留的经济舱座位,所以去佛罗伦萨的旅程很艰苦,但我想去那里。但Geoff你并未出席。
Hinton:不,我确实没有出席。那是一次充满艰辛的旅程。
Feifei:但你是否知道那将是一个具有历史意义的时刻?
Hinton:是的,我知道。
Feifei:但你派遣了Alex代表你出席。
Hinton:Alex,对,就是他。
Feifei:
他多次忽视了我发给他的电子邮件,因为我曾对他说:“Alex,这个想法太棒了,请做这个可视化。”他却对我置之不理。然而Yann LeCun却出席了。这是因为参加这类学术会议的人通常会预订较小的房间,我们也预订了一个非常小的房间,可能只占据了这里的中间部分。我记得Yann不得不站在房间的后面,因为那里人满为患。
最后,Alex出现了,因为我真的很紧张,担心他甚至不会出现。
但正如你所预期的,ImageNet在那次研讨会上受到了攻击。在那次研讨会上,有人公开批评ImageNet是一个糟糕的数据集。这种情况就发生在会议室里。在演讲过程中。在会议室里。
Hinton:但Jitendra并未参与其中,因为Jitendra已经认同这个观点。
Feifei:我不记得Jitendra当时是否在会议室里。
但我记得那对我来说是一个非常奇特的时刻,因为作为一名机器学习研究人员,我知道历史正在被创造。然而,ImageNet却在此时受到了攻击。那是一个非常奇特且令人兴奋的时刻。
然后我不得不匆忙返回旧金山,因为第二天早上我还有事情要处理。
所以你提到了一些人,我想稍后再详细谈论他们。
Ilya是OpenAI的创始人兼首席科学家,Yann LeCun后来成为Facebook(现在是Meta)的人工智能主管。还有其他一些有趣的人物。
但在我们继续讨论那个繁荣时刻创造了什么之前,让我们先回顾一下。你们两人都是带着一个非常具体的目标开始的,这个目标非常独特,我认为它是反传统的。你们必须坚持度过你刚才描述的那些时刻,而且在整个职业生涯中都是如此。
Geoff,你能否先回顾一下,告诉我们你当初为什么想进入人工智能领域?
Hinton:
我本科学的是心理学。我并没有学得很好。我认为,除非他们弄清楚大脑是如何运作的,否则他们永远也不会弄清楚思维是如何运作的。所以我想弄清楚大脑是如何运作的。我想要一个真正能起作用的模型。
因此,你可以把理解大脑看作是搭建一座桥梁。这里有实验数据,你可以从实验数据中学到一些东西。有些东西可以做你想要的计算,可以识别物体。它们非常不同。
我认为这是你想在数据和能力之间搭建一座桥梁,完成任务的能力。我总是把自己看作是从能起作用的东西的末端开始,但试图让它们越来越像大脑,但仍然能起作用。许多人试图通过经验数据来证明某些事物,并尝试提出可能有效的理论。然而,我们的目标是尝试搭建一座桥梁,这是一项并不常见的尝试。特里正在从另一端尝试搭建这座桥梁,因此我们的合作非常愉快。
很多从事计算机视觉的人只是想找到一些有效的方法,他们并不关心大脑的运作。而许多对大脑感兴趣的人,他们想了解神经元是如何工作的,但并不想过多地考虑计算的性质。我坚信,我们必须通过让了解数据的人和知道如何建立联系的人共同来搭建这座桥梁。因此,我的目标一直是创造能够实现视觉的东西,但必须以人的方式来实现。
我们会回到这个问题上,因为我想询问你最近的发展以及你认为它们与大脑的关系。Geoff,我只是想给你一个框架,让你了解你的起点,从80年代中后期的英国,到美国,再到1987年的加拿大。在这条路线上,对神经网络的资助和兴趣以及你采取的方法大致是这样的,但我想说大部分是这样的。
Feifei,你的人生起点非常不同。你能给我们讲一下你是如何进入人工智能领域的吗?
Feifei:
我在中国开始了我的生活。15岁时,我和父母来到新泽西州的帕西帕尼。因此,我成为了一名新移民,我首先开始学习英语作为第二语言课程,因为我不会说英语,只能在洗衣店和餐馆等地方工作。但我对物理充满热情。我不知道它是怎么进入我的脑海的,我想去普林斯顿,因为我只知道爱因斯坦在那里,所以我进了普林斯顿。我进普林斯顿的时候,他已经不在了。你还没那么老。是的。但那里有他的雕像。
除了数学和所有这些之外,我在物理中学到的一件事就是敢于提出最疯狂的问题,比如原子世界中最小的粒子,时空的边界和宇宙的起点。在此过程中,我在三年级时发现了大脑罗杰·彭罗斯和那些书。是的。你可能有自己的看法,但至少我读过那些书。
Hinton:你最好不要这么做。
Feifei:好吧,他至少让我对大脑产生了兴趣。到了我毕业的时候,我想问一个科学家最大胆的问题。对我来说,我们这一代人,也就是2000年,最令人着迷、最大胆的问题就是智力。所以我去了加州理工学院,在Christoph Koch的指导下攻读神经科学博士学位,在Pietro Perona的指导下攻读人工智能博士学位。
所以我非常赞同你所说的桥梁,因为那五年让我能够研究计算神经科学,观察大脑是如何工作的,以及研究计算方面的问题,并尝试构建可以模仿人脑的计算机程序。这就是我的旅程。它从物理学开始。
因此,你们的旅程在2012年的ImageNet大赛中交汇。
Feifei:顺便提一下,我在读研究生的时候,有幸认识了Geoff。
Hinton:我还记得,我曾经去过Pietro的实验室。实际上,当我70岁的时候,他确实为我在加州理工学院提供了一份工作。你本可以成为我的顾问,但在我70岁的时候并未如此。
好的,你们在ImageNet大赛中相遇。对于这个领域的人来说,ImageNet无疑是一个重要的里程碑。随后,大型科技公司开始进入这个领域,他们开始收购你的学生和你,将你们纳入公司的行列。我认为他们是最早意识到这个领域潜力的人。
我想谈一下这个问题,但我想稍微快进一下。我认为,直到ChatGPT出现,世界其他地方才开始意识到人工智能的力量,因为你现在可以亲身体验它。你可以在会议室中体验它,可以讨论它,然后回家。甚至有10岁的孩子用ChatGPT为五年级写了一篇关于恐龙的作文。这种每个人都可以亲身体验的情况,我认为是一个巨大的转变。
然而,在过去的10年中,大型科技公司内部的人工智能发展迅速,而其他人并没有真正注意到这一点。你能和我们分享一下你的经历吗?因为在ImageNet之后,你经历了一种转变。
Hinton:
我们很难理解为什么其他人没有意识到发生了什么,因为我们清楚地看到了这一点。
许多你认为会走在前沿的大学在接受这个新领域方面进展非常缓慢,例如麻省理工学院和伯克利分校。我记得在2013年去伯克利听过一次演讲,当时人工智能已经在计算机视觉领域取得了巨大的成功。然而,一个研究生走到我面前,说他在这里待了四年,这是他第一次听到关于神经网络的演讲。他们真的很有趣,他应该去斯坦福大学。
麻省理工学院也是如此,他们坚决反对使用神经网络。ImageNet的成功开始让他们感到沮丧。现在他们是神经网络的大力支持者。但现在很难想象,在2010年或2011年左右,有一些计算机视觉领域的专家,非常优秀的专家,坚决反对神经网络。他们非常反对,例如,主要期刊之一的IEEE Pattern Recognition,PAMI,曾经有一项政策,不审阅有关神经网络的论文,直接将它们退回。这是浪费时间。该研究不应该在PAMI(模式分析和机器智能)上发表。
研究者向一个会议提交了一篇论文,论文中提出了一个神经网络模型,该模型在识别和分割行人方面的表现超过了当前最先进的技术。然而,这篇论文被拒绝了。
拒稿的原因之一是,一位审稿人认为,这篇论文并未提供任何有关视觉信息的新知识。他们认为,计算机视觉的研究应该是探究视觉问题的本质,然后制定出解决这个问题的算法,明确如何实现这个算法,最后发表论文。然而,这篇论文并未达到这样的标准。
我必须捍卫我的领域。并非所有人都持有这样的观点,但是有一部分人是这样认为的。然而,大多数人对神经网络持有强烈的反对态度。然而,在ImageNet竞赛结束后,情况发生了翻天覆地的变化。在大约一年的时间里,所有曾经对神经网络提出过最大批评的人都开始研究神经网络。令人遗憾的是,他们中的一些人的研究成果甚至超过了我们。例如,牛津大学的Zisserman很快就研发出了更优秀的神经网络。
但他们的行为是科学家应有的态度,他们坚信这些东西是垃圾。然而,由于ImageNet的存在,我们最终可以证明事实并非如此。于是,他们改变了态度,这让人感到欣慰,并且他们也继续推进研究。
所以,你想表明的是,你试图使用神经网络准确地标记这1500万张图像。你已经在后台对它们进行了标记,以便可以测量。当你这样做时,错误率从前一年的26%下降到16%左右。
然后在随后的几年里,人们正在使用更强大的神经网络,错误率继续下降……
Feifei:
到了2015年,一位非常聪明的加拿大本科生Andrej Karpathy加入了我的实验室。有一年夏天,他觉得无聊,说,我想测量一下人类的表现。所以他让所有这些人参加图像网络测试聚会。我想,他不得不用披萨贿赂他们,当时我的学生也在实验室里。他们的准确率大约是5分的3.5分
然后我想到了2016年,我认为ResNet超过了它。是ResNet。那是那一年的获胜算法,超过了人类的表现。
然后最终你不得不退出比赛,因为它比人类好太多了,以至于……
Feifei:我们不得不作出退出的决定,原因在于我们的资金已经耗尽。
Hinton:此外,我想提一下,Andrej在进入你的实验室之前,其学术生涯是在多伦多大学开始的。后来,他前往特斯拉担任研究主管。
Feifei:在此之前,他曾在斯坦福大学攻读博士学位。昨晚我们进行了一次交谈,实际上,在他的学术生涯中,有一篇具有突破性的论文。然后,他成为了OpenAI的创始团队的一员。
Hinton:后来他选择了特斯拉。然后,他改变了自己的主意。
Feifei:但我确实想回答你关于过去十年的问题。在这期间,有几个重要的发展,其中包括Transformers。
是的,Transformer的论文是由谷歌内部的研究团队完成的。另一位加拿大人,艾登·戈麦斯,是这篇论文的合著者,他现在是Cohere的首席执行官兼联合创始人。我认为他在共同撰写这篇论文时,是谷歌大脑的一名20岁实习生。因此,加拿大人参与这些突破性研究已经成为一种传统。然而,Geoff,当这篇论文在谷歌内部写作时,你是否意识到这个研究的重要性?
Hinton:
我认为并没有。也许作者自己知道。但我花了几年时间才意识到它的重要性。在谷歌,直到BERT的出现,人们才开始意识到它的重要性。因此,BERT使用了Transformers,然后,BERT在许多不同任务的自然语言处理基准测试中表现得更好。那时,人们开始意识到Transformers的特殊之处。
Feifei:
因此,2017年,Transformer的论文发表,我也加入了谷歌。我记得你和我实际上是在我加入的第一周就认识的。我认为2017年和2018年的大部分时间,我都在进行神经架构搜索,我认为那是谷歌的一个重要投资。而且,大量的GPU被投入使用。所以,这是一个不同的赌注。
Hinton:
神经架构搜索本质上是这样的:你会得到大量的GPU,然后你尝试很多不同的架构,看看哪个效果最好,然后你将其自动化。这基本上是神经网络架构的自动演进,就像超参数调整一样。它带来了一些相当大的改进,但没有什么比Transformers更好。Transformers对自然语言的处理是一个巨大的进步。神经架构搜索主要是在ImageNet上完成的。
所以,我想分享一下我们对Transformers的体验。当时,我们正在进行我们公司的第六轮融资。我记得我们看到了这篇论文的预发布版本。我们正处于融资和一系列收购要约之中。我们读了这篇论文,不仅是我,还有我的合伙人Tommy,他和你一起学习过。我们还有来自小组实验室的Max Volkovs。我们认为,这将是神经网络的下一个迭代。我们应该出售这家公司,设立一家风险基金,并投资于那些即将使用Transformers的公司。因此,我们预测,除了谷歌之外,这项技术还需要五年的时间才能被广泛采用。从那一刻起,全球所有的软件都需要十年的时间才能被这项技术取代或嵌入。我们在ChatGPT问世的五年零两周前做出了这个决定。因此,我很高兴看到我们的预测非常准确。
然而,我必须感谢我的联合创始人。我原以为我已经理解了这篇论文的内容,但他们却能够完整地解释它。
Hinton:
我只想纠正你的一个误解。我认为Tommy从未跟我学习过。他曾想过跟我学习,但我的一个部门同事告诉他,如果他来跟我一起工作,那将是他职业生涯的结束。他应该去做别的事情。因此,他选择了参加课程。
我的搭档,在90年代末在多伦多大学攻读硕士学位。他曾想跟Geoff一起研究神经网络。他现在的岳父,是一名工程学教授,他告诉他不要这样做,因为神经网络是条死路。因此,他选择了参加课程,并用加密货币撰写了论文。
Feifei:你还会谈论这10年吗?因为我认为有一些重要的事情。
是的,请继续。
Feifei:
我确实认为世界忽略了一些重要的事情。在ImageNet、AlexNet和ChatGPT之间的这10年,大多数人都将其视为技术的10年,或者我们认为这是技术的10年。在大型科技领域,有些事情正在酝酿之中。它需要Seq2Seq、transformer,但事情正在酝酿之中。
然而,我确实认为,对我个人和世界而言,这也是技术向社会的转变。实际上,我个人认为,在这10年里,我从一个科学家成长为一个人文主义者,因为在transformer论文发表的中间两年加入了谷歌,我开始看到这项技术的社会意义。这是在AlphaGo之后的时刻。很快,我们就到了AlphaFold的时刻。偏见开始蔓延,隐私问题开始出现,然后我们开始看到虚假信息和错误信息的出现。然后我们开始看到在小圈子里谈论工作,而不是在大型公开讨论中。那是我个人感到焦虑的时候。
我记得是在2018年,也就是在剑桥分析公司事件之后,我开始意识到技术对选举的巨大影响,这并非人工智能本身,而是算法驱动的技术。那时,我不得不做出个人决定,是留在谷歌还是回到斯坦福。我知道我回到斯坦福的唯一原因是创办这个人类中心人工智能研究所,真正了解这项技术的人性化一面。因此,我认为过去的十年极其重要。尽管这一技术尚未引起公众的广泛关注,但它已经开始真正渗透到我们生活的各个方面。显然,到了2022年,这一切都在阳光下展现出来,其影响之深远是无法估量的。
在那个时期,有一件有趣的事情值得一提,那就是你、Ilya和Alex最终加入了谷歌。然而在此之前,有一家大型的加拿大公司本有机会获得这项技术。我曾听过这个故事,但我认为它从未被公开分享过。也许你愿意分享一下这个故事?
Hinton:
好的,我们在ImageNet上使用的技术,实际上是我们在2009年为语音识别开发的,主要用于语音识别的声学建模部分。你可以获取声波,然后制作一个叫做频谱图的东西,它会告诉你每个频率上的能量是多少。你可能习惯于看频谱图,你想要做的是查看频谱图并猜测频谱图中间帧表达了哪个音素的哪个部分。
我有两个学生,乔治·达尔和另一个我与杰拉尔德·佩恩共同指导的学生阿卜杜。我们都叫他阿卜杜,他是一位语音专家,而乔治是一位学习专家。在2009年的夏天,他们制作了一个模型,这个模型比过去30年的语音研究所能产生的模型更好,尽管它的优势并不像ImageNet那么大,但仍然更好。
之后,George和Abdo分别去了微软和IBM,将这个模型移植到了IBM和微软。然后,这些大型语音研究小组开始使用神经网络。
我的第三个学生Navdeep Jaitley一直在研究另一个叫做Navdeep的东西。他想把这种语音技术带到一家大公司,但由于复杂的签证原因,他想留在加拿大。因此,我们联系了黑莓公司,我们告诉他们,我们有这种新的语音识别方法,它比现有技术效果更好。我们希望一个学生在夏天来找你,向你展示如何使用它。然后,你就可以在手机上获得最好的语音识别了。
然而,经过一些讨论后,黑莓的一位相当资深的人表示,他们对此并不感兴趣。因此,我们试图将其提供给加拿大工业的尝试失败了。然后Navdeep把它带到了谷歌,谷歌成为了第一个将其变成产品的公司。
因此,在2012年,大约在我们赢得ImageNet竞赛的同时,George和Abdo的语音识别声学模型也出现了,我们做了很多工作来使它成为一个好的产品,并使它具有低延迟等等,这些都在Android中出现了。有一段时间,Android在语音识别方面突然变得和Siri一样好。这就是神经网络的力量。我认为,对于大型公司的高管而言,这是另一个重要因素。他们看到了在视觉方面取得的显著成果,同时也注意到了其在语音识别产品中的应用,并且表现良好。因此,我认为,视觉和语音的结合无疑可以实现一切。
至于黑莓,我们就不再多谈了。加拿大工业没有采取行动真是遗憾,如果他们这样做的话,我想我们可能还会有黑莓手机。好了,我们就此打住。
我认为这是一个值得讲述的故事,我以前听过这个故事,但我认为让世界其他国家了解背后发生的事情很重要,比如为什么这项技术没有留在加拿大,尽管它是免费提供的。
好的,让我们继续前进。
现在我们有了后Transformer时代。谷歌开始以多种不同的方式使用和开发它。OpenAI是由你的前学生Ilya离开谷歌后,与伊隆·马斯克、萨姆·奥特曼、格雷格·布罗克曼和其他一些人一起创立的。Ilya是首席科学家,他们和你的学生Andrej是联合创始人。他们正在合作,一个非常小的团队,主要是进行翻译工作。
最初的想法是,我们要建立AGI和通用人工智能。最终,Transformer论文问世,他们开始在某个时候采用Transformer,并在内部取得了非凡的进展,但他们并没有公开分享他们在语言理解和其他一些事情上的成果。他们在机器人技术方面做出了努力。Peter Abbeel最终分拆了Covariant,这是我们后来投资的一家公司,还有其他公司。因此,语言部分在不断进步。除了OpenAI的人,其他人并不真正了解发生了什么。然后,ChatGPT于去年11月30日发布,也就是10个月前。
Feifei:
GPT-2引起了我们中的一些人的注意。我认为,实际上,我认为在GPT-2发布的时候,我的同事、斯坦福大学的NLP教授Percy Leung找我说,Feifei,我对这项技术的重要性有了全新的认识。因此,值得赞扬的是,Percy立即要求HAI建立一个中心来研究这个问题。
我不知道在多伦多是否有争议,但斯坦福大学是创造了基础模型这一术语的大学。有些人称之为LLM,大型语言模型,但超越语言,我们称之为基础模型。我想,在3.5发布之前,我们就创建了基础模型研究中心。所以肯定是在ChatGPT之前。
对于那些不熟悉基础模型的人,我来描述一下基础模型是什么。
Feifei:
这其实是一个很好的问题。有些人认为基础模型中必须有Transformer。它必须是一个在大量数据上训练的非常大的模型。非常大的模型,通过大量数据进行预预训练,我认为这是基础模型的最重要特性之一,即其在多个任务上的通用性。你并不是专门为某一项任务,比如机器翻译,来训练这个模型。在自然语言处理(NLP)领域,机器翻译无疑是一项重要的任务。然而,像GPT这样的基础模型,不仅能够进行机器翻译,还能进行对话、总结等多种任务。这就是基础模型的特点。我们现在在多模态领域也看到了这一点,比如在机器人、视频等领域,我们看到了各种不同的应用。所以,我们创造了这样的模型。
Hinton:
关于基础模型,另一个非常重要的事情是,长期以来,在认知科学中,普遍的观点是,这些神经网络,只要你给它们足够的训练数据,它们就能完成复杂的任务。但是,它们需要大量的训练数据,需要看过成千上万只猫的图片。而人类在统计上要高效得多,也就是说,他们可以在更少的数据上学会做这些事情。然而,现在人们不再这么认为了。因为他们实际上在做的是比较麻省理工学院本科生在有限数据上能学到什么,与从随机权重开始的神经网络在有限数据上能学到什么。这是一个不公平的比较。
如果你想进行公平的比较,你可以采用一个基础模型,也就是一个经过大量训练的神经网络。然后你给它一个全新的任务,你会问,它需要多少数据来学习这个全新的任务?这被称为小样本学习,因为它不需要太多数据。然后你会发现这些模型在统计上是有效的,也就是说,它们与人类相比,在完成一项新任务所需的数据量方面相当有利。
所以,旧的先天主义观点认为,我们拥有大量的先天知识,这使我们远远优于那些只从数据中学习一切的东西。人们现在几乎已经放弃了这种观点。因为如果你采用一个没有先天知识但有很多经验的基础模型,然后你给它一个新任务,它会非常有效地学习。它不需要大量的数据。
Feifei:
我的博士学位是研究一次性学习的,但这很有趣。即使在贝叶斯框架中,你也可以进行预训练。但只有在神经网络中,预训练才能真正让你实现这种多任务处理。
好的,这基本上在ChatGPT中被产品化了。全世界都在经历它,这只是10个月前的事。虽然对我们中的一些人来说,感觉时间要长得多。因为突然间,你经历了一场很久以前的大爆炸,我认为很长一段时间以来,没有人真正看到它的结果。突然间,我的比较是,行星形成了,恒星也变得可见。每个人都可以体验10年前发生的事情的结果,然后发生了变化,等等。因此,世界突然充满了激动人心的气氛,我认为对许多人来说,这就像魔术一样。他们可以触摸和体验的事物,能以他们所期望的任何方式给予他们反馈。无论他们是输入文本提示并要求创建图像、视频或文本,还是要求更多的文本来回答他们永远无法预测的问题并获得那些出乎意料的答案,这都让人感觉有些像魔术。
我个人的观点是,我们一直在改变人工智能的目标线。人工智能一直是我们无法实现的事情,它总是像魔术一样。一旦我们达到了那个目标,我们就会说,那根本不是人工智能。或者有人会说,那根本不是人工智能。我们就这样改变了目标线。
那么,在这种情况下,当它出现时,你的反应是什么?我知道你的部分反应是你离开了谷歌,决定做不同的事情。但是当你第一次看到它时,你是怎么想的?
Hinton:
正如Feifei所说,GPT-2给我们所有人留下了深刻的印象。然后有一个稳定的进展。此外,在GPT-4和GPT-3.5之前,我在谷歌内部看到的东西和Palm一样好。所以这本身并没有太大的区别。
更多的是Palm在谷歌内部给我留下了深刻的印象,因为Palm可以解释为什么一个笑话很有趣。我总是用它作为例子,当它能解释一个笑话为什么好笑时,我们就知道它真的懂了。而Palm可以做到这一点。不是每个笑话都这样,但很多笑话都是这样。顺便说一句,这些东西现在很好地解释了为什么笑话很有趣。但它们讲笑话很糟糕。
这是有原因的,因为它们一次只能生成一个单词的文本。所以如果你让它们讲一个笑话,它们会试着讲一个笑话。所以它们会试着讲一些听起来像笑话的东西。所以他们会说,一个牧师和一只獾走进了一家酒吧。这听起来有点像笑话的开头。他们继续讲一些听起来像笑话开头的东西。但后来他们到了需要妙语的地步。当然,他们没有提前想好。他们没有想过妙语是什么。他们只是想让它听起来像是在引出一个笑话。然后他们给你一个可怜的、无力的妙语。因为他们必须想出一些妙语。
所以,尽管他们可以解释笑话,因为他们在说任何话之前就能看到整个笑话,但他们不能讲笑话。但我们会解决这个问题。
好的。所以我想问你喜剧演员是不是未来的职业。
Hinton:可能不是。
好吧。所以无论如何。那么Feifei你对此有何反应?再说一次,你一路上都看到了幕后的事情。一些反应。
Feifei:
我的第一个反应是,在所有人中,我以为我知道数据的力量。我仍然对数据的力量感到敬畏。那是一种技术反应。我当时的想法是,我应该创造一个更大的ImageNet。也许我错了。
Hinton:但实际上,你仍然有机会做到这一点。
Feifei:
资金成为了问题。所以,这是首要的问题。
其次,当我看到公众开始对人工智能有所了解,开始关注GPT,而不仅仅是GPT-2技术时,我通常会感到庆幸。感谢上天,我们在过去四年里投资了以人为本的人工智能。感谢上天,我们与政策制定者、公共部门和民间社会建立了沟通的桥梁。我们的工作还远未完成,但感谢上天,这场对话已经开始了。我们参与其中,我们领导了其中的一部分。
例如,作为斯坦福大学的一个研究所,我们正在领导一项重要的国家人工智能研究云法案,该法案目前仍在国会审议。实际上,现在还没有通过。所以至少它正在推动参议院。因为我们预测了这项技术的社会时刻。我们不知道它什么时候会到来,但我们知道它会到来。这只是一种紧迫感。
老实说,我觉得这是我们真正必须提升的时刻,不仅是作为技术专家的热情,还有作为人文主义者的责任。
所以你们两位,我想你们的共同反应是,我们必须考虑这带来的机会,也必须考虑它的负面后果。
Hinton:
对我来说,我意识到了一件事情,但直到很晚才意识到,让我对社会影响更感兴趣的是,就像Feifei所说的,数据的力量。这些大型聊天机器人看到的数据比任何人可能看到的多出数千倍。他们之所以能做到这一点,是因为你可以复制同一模型的数千份副本,每份副本都可以查看数据的不同子集,它们可以从中获得如何更改参数的梯度。然后他们可以共享所有这些梯度。因此,每个副本都可以从其他副本从数据中提取的内容中受益。我们不能这样做。
假设你有10,000个人,他们出去阅读了10,000本不同的书,每人读完一本书后,他们都知道所有书里的内容。这样我们就可以变得非常聪明。而这正是这些机器人正在做的事情。
Feifei:因此,它们远远优于我们。有些学校我们正试图做到这一点,但并非如此。
Hinton:教育根本无望。它几乎不值得花钱。除了多伦多大学和斯坦福大学。(笑)
我曾试图向朋友解释,Geoff有一种非常讽刺的幽默感,如果你花足够的时间,你就会明白。但我会让你决定这是否是讽刺。
Hinton:
所以我们交换知识的方式,粗略地说,这是一种简化。但我写了一句话,你弄清楚了你必须在大脑中改变什么,所以你可能会这么说。也就是说,如果你相信我的话。我们也可以对这些模型做到这一点。如果你想让一个神经网络架构知道另一个架构知道什么,这是一个完全不同的架构,你不能只给它权重。所以,你是在让一个模型模仿另一个模型的输出,这个过程被称为提炼。这其实就是我们人类相互学习的方式。然而,这种方式的效率非常低,因为它受限于一个句子的带宽,也就是几百位。而如果你有这些模型,这些数字代理,它们有数万亿个参数,每个模型都会查看不同的数据位,然后共享梯度。它们共享数万亿个数字。因此,你在比较以数万亿个数字共享知识的能力和以数百位共享知识的能力,它们在共享方面比我们强得多。
Feifei:
所以,Geoff,我想说,我同意你在技术层面上的观点。但对你来说,这听起来像是一个让你感到非常消极的时刻。
Hinton:我想,这是我们已经成为历史的时刻,对吗?
Feifei:是的,我没有你那么消极,我稍后会解释原因。但我认为这是我们需要面对的问题。
实际上,让我们来谈谈这个。解释一下Feifei你为什么乐观,让我们了解一下Geoff你为什么更悲观。
Hinton:我很悲观,因为悲观主义者通常都是对的。
Feifei:
我也以为自己是个悲观主义者。我们进行了这样的对话。所以我不知道我是否应该被称为乐观主义者。我想我是……你看,当你 15 岁来到一个国家,不会说任何语言,从零开始,我的想法非常务实。
我认为我们人类与技术的关系,比学者通常预测的要复杂得多。
因为我们从象牙塔里进入学术界,我们想要有所发现,我们想要打造一项技术。但我们倾向于纯粹主义。然而,当像人工智能这样的技术落地并达到社会层面时,它不可避免地会与人类的行为纠缠在一起。也许这就是你称之为乐观的地方。这是我的人性意识,我相信人性。我不仅相信人类的韧性,也相信集体意志。历史的弧线有时是危险的,但如果我们做正确的事,我们就有机会。我们有机会创造一个更好的未来。
所以现在我真正感受到的并不是盲目的乐观,这实际上是一种紧迫感和责任感。Geoff,有一件事我真的希望你能感到积极,那就是看看这一代的学生。在我的课堂上,我每年春天都会给 600 名本科生讲授深度学习和计算机视觉入门课程。这一代人与五年前相比有很大不同。他们走进我们的课堂,不仅想学习深度学习Transformer、人工智能,还想谈论道德。他们想谈论政策,他们想了解隐私和偏见。
我认为这真的是我看到人类崛起的地方。我认为这是脆弱的。看看华盛顿的世界正在发生什么,它非常脆弱。但我认为如果我们认识到这个时刻,就有希望。所以我看到了同样的事情。
Hinton:
我不再教本科生了,但我在更多的初级教职员工身上看到了这一点。例如,在多伦多大学,有两位极其聪明的年轻教授,他们前往人类学系进行排列研究。因此,现在确实发生了巨大的转变。我认为我可能无法提供解决这个问题的思路。但我可以鼓励这些年轻人,这些大约40岁的年轻人,去研究这些想法。他们现在确实在进行研究,并且对此非常认真。
Feifei:
只要我们把像你们这样最聪明的人,比如我在观众席和网上看到的人,投入到这个问题中,这就是我所寄予的希望。
Geoff,你离开谷歌的主要原因是为了能够以你想要的方式自由地谈论这个问题。
Hinton:但实际上,这并非事实,这只是媒体的报道。
听起来很好,但我离开谷歌是因为我年纪大了,累了,想退休,看Netflix。而我当时恰好有机会说出一些我一直在思考的关于责任的事情,而不必担心谷歌会如何回应。如果我们有时间的话,我们会回到Netflix推荐上。(笑)
与此同时,你确实开始在媒体上发表一些相当重要的言论。
我认为在过去的八个月里,你们俩与政治家交谈的次数可能比你们以前与总统和总理交谈的次数还要多,从国会到议会等等。Geoff,你能解释一下你的担忧是什么吗?你表达出来的目的是什么?你认为这样做是否有效?
Hinton:
是的,人们谈论人工智能的风险,但风险有很多种。存在一种风险,即它会夺走工作岗位,而不是创造那么多工作岗位。因此,我们将有一个失业的底层阶级。我们需要对此深感担忧,因为人工智能将导致生产力人数的增加,而失业的人不会分享这一增长。富人会越来越富,穷人会越来越穷。即使你有基本收入,也无法解决人类尊严问题,因为许多人都希望有一份工作,以感觉自己在做一些重要的事情,包括学术工作。这是一个问题。
然后是假新闻的问题,这是一个完全不同的问题。然后是战斗机器人的问题,这也是一个完全不同的问题。所有大型国防部门都想制造战斗机器人,但没有人会阻止他们。这将是可怕的。也许最终,在我们与战斗机器人进行过一些战争之后,我们会得到类似日内瓦公约的东西,就像我们对化学武器所做的那样。直到它们被使用后,人们才可以做些什么。
然后是生存风险,这是我最担心的。生存风险是指人类被消灭,因为我们开发了一种更好的智能形式,决定掌控一切。如果它变得比我们聪明得多,那么这里就会有很多假设。这是一个充满巨大不确定性的时代。我想要强调的是,你不应该过于认真地对待我所说的每一句话。因此,如果我们创造出比我们更聪明的实体,这些数字智能可以更好地进行信息共享,从而使你能够学习到更多的知识。我们将不可避免地让这些智能实体创造出子目标。
如果你想让这些智能实体去完成某项任务,为了达成这个目标,他们会发现,首先需要完成一些其他的任务。例如,如果你想去欧洲,你首先需要去机场。这就是一个子目标。因此,他们会制定出子目标。其中一个非常明显的子目标就是,如果你想完成任何任务,你需要获取更多的权力。如果你获得了更多的控制权,完成任务就会变得更加容易。因此,任何能够创造子目标的实体都会创造出获取更多控制权的子目标。如果比我们聪明得多的实体想要获取控制权,他们就会这样做。我们将无法阻止他们。因此,我们必须找到方法阻止他们获取控制权。幸运的是,我们还有一些希望。
这些智能实体并没有经过进化。他们并不是那种令人讨厌的竞争性实体。无论我们如何创造他们,他们都是如此。他们是不朽的。因此,有了数字智能,你只需要将数据存储在某个地方。你可以随时在其他硬件上再次运行它。因此,我们实际上已经发现了永生的秘密。唯一的问题是,这并不适用于我们。我们是凡人。但这些其他实体是不朽的。这可能会使他们变得更好,因为他们不需要担心死亡。他们并不需要像希腊诸神那样。他们其实很像希腊诸神。
我必须要提到一些伊隆·马斯克告诉我的话。这是伊隆·马斯克的信念。他认为,我们是数字智能的引导程序。我们是这种相对愚蠢的智能形式。我们足够聪明,可以创造计算机和人工智能。这将是一种更聪明的智能形式。而伊隆·马斯克认为,这会让我们继续存在。因为有人的世界会比没有人的世界更有趣。这似乎是一条悬在你未来上的细线。但这与飞飞所说的有关。这很像希腊诸神的模型。诸神身边有人陪他们玩。
Feifei:
我可以对此发表评论吗?我说的都不是争议性的。
所以我想把你的四个担忧归为一类。经济、劳动力、虚假信息和武器化。然后是灭绝,希腊诸神。我忘了歧视和偏见。所以我想把它们分成两类。希腊诸神灭绝是灭绝桶。其他一切都我称之为灾难性的。仅仅是灾难性的。灾难性的危险。
我想对此发表评论。我认为,作为人工智能生态系统中的一员,我真正感到有责任确保我们不会夸大其词。尤其是与公共政策制定者。Geoff,恕我直言,灭绝风险是一个非常有趣的思考过程,学术界和智库应该对此进行研究。这是我多年来的想法。我认为这还远在未来。有哲学家和学者致力于这个领域,这真是令人欣慰。我个人认为这个领域更为有趣。然而,这个过程并非仅仅涉及到机器,人类也是这个复杂过程的参与者。因此,我认为在这个过程中存在许多微妙的差异。
以核能为例,我们讨论的核能,其范围实际上要比我们想象的要狭窄得多。但如果你深入考虑,你会发现核能并不仅仅是关于核聚变或裂变理论,它实际上涉及到获取铀或钚,系统工程,以及人才等多个方面。我相信你一定看过关于奥本海默的电影。因此,如果我们能朝这个方向前进,我认为我们有机会,而且不止一个,因为我们是一个人类社会。我们需要设立防护措施,我们需要共同努力。
我并不希望描绘出这样的画面:明天我们将拥有所有这些机器人,尤其是机器人形式、物理形式,创造出机器霸主。我真的认为我们需要谨慎行事。但我并不反对你的观点,这是我们需要考虑的事情。
所以这就是灭绝的可能性。我认为灾难性风险更为现实。我认为我们需要最聪明的人,越多越好。所以,对于每一个发表的评论,我们都需要认真对待。武器化,这是一个非常现实的问题。我完全同意你的观点。我们需要建立国际伙伴关系,我们需要制定潜在的条约,我们需要了解参数。尽管我对人类持乐观态度,但我对我们的自我毁灭能力以及相互毁灭的能力也持悲观态度。因此,我们必须让人们致力于这个问题。我们的朋友斯图尔特·罗素和许多人工智能专家都在讨论这个问题。
你提到的第二个问题是虚假信息。再次强调,到2024年,每个人都会关注美国大选以及人工智能将如何发挥作用。我认为我们必须解决社交媒体问题,我们必须解决虚假信息问题。从技术角度来看,我现在看到了更多的工作。从技术角度来看,数字认证实际上是一个非常活跃的研究领域。我认为我们需要在这方面进行投资。我知道Adobe正在做这方面的工作,我知道学术界也在做这方面的工作。我认为我们需要这样做。我希望这个领域确实有初创公司在研究数字身份验证。但我们也需要政策。
然后是工作问题。我非常同意你的观点。实际上,我认为最重要的工作是人工智能辩论的核心,那就是人类尊严。人类尊严不仅仅是你赚了多少钱,工作了多少小时。我真的认为,如果我们做得对,我们将从劳动经济转向尊严经济,在机器的帮助下,人类将通过合作,凭借热情、个性化和专业知识赚钱,而不仅仅是那些真正艰苦和繁重的工作。这也是为什么人类,斯坦福大学的HAI,拥有人类增强的创始原则。
我们在医疗保健中看到了这一点。在GPT最早、最大的一天,我有一位来自斯坦福医院的医生朋友走到我面前说,飞飞,我想感谢你创建了GPT。我说,我什么也没做。我们正在使用GPT的医疗总结工具,因为这对我们的医生来说是一个巨大的负担。这个工具占用了患者的时间,但正因为如此,我得到了更多的时间。这是一个完美的例子,我们会看到更多这样的情况,甚至可能在蓝领工人中看到这种情况。因此,我们有机会纠正这个问题。
在灾难性担忧中,另一个担忧实际上是权力不平衡。我现在看到的权力不平衡现象之一就是公共部门被排除在外,而且这种现象正在以极快的速度加剧。我不了解加拿大的情况,但我知道美国没有一所大学今天在计算能力方面可以训练ChatGPT。如果把美国所有大学加起来,GPT、A100或H100,可能没有人拥有它,但A100无法训练ChatGPT。
然而,这就是我们仍然拥有治疗癌症、应对气候变化、经济和法律研究的独特数据的地方。我们需要投资公共部门。如果我们现在不这样做,我们将让整整一代人失望。我们将以如此危险的方式留下这种权力不平衡。因此,我同意你的观点。我认为我们面临许多灾难性风险,我们需要着手解决这一问题。这就是为什么我们需要与政策制定者和公民社会合作。
我是以乐观的语气还是悲观的语气说这句话,但现在听起来更悲观。然而,我确实认为还有很多工作要做。
乐观地说,由于你们在过去六、八个月里一直直言不讳,情况发生了巨大转变,正如Geoff所说,关键研究人员开始关注这些问题,然后公众和政策也发生了转变,各国政府实际上开始认真对待它。
因此,你正在为白宫和美国政府提供建议。你也和他们谈过了。你可能和总理或多位总理坐在一起。他们正在倾听,对吧,10个月前、12个月前他们不一定会有这种倾听方式。
Hinton:
我乐观地认为,人们已经意识到存在着一大堆问题,既有灾难性风险,也有生存风险。我完全同意Feifei的观点。灾难性风险更加紧迫,特别是2024年,非常紧迫。我非常乐观地认为,人们现在正在倾听。
Feifei:
我同意,我认为他们在倾听。我想说的是,首先,你是在听谁的意见?我看到公共部门和私营部门之间的不对称。即使在私营部门,你也在听谁的意见?不应该只是大型科技公司和名人初创公司。有很多农业部门、教育部门。这些都是……第二,那么,在所有这些噪音之后,什么是好的政策?我们谈论监管与无监管。他实际上不知道加拿大处于什么位置。总是美国创新,欧洲监管。”加拿大位于哪里?”这个问题可能存在多种答案。对于你来说,答案可能是介于两者之间。这是一个很好的答案,对你来说也是很好的。
我认为我们实际上需要的是激励政策、公共部门的建设以及释放数据的力量。我们的政府掌握着大量的数据,包括森林火灾数据、野生动物数据、交通数据、气候数据,以及激励机制等。接下来,我们需要良好的监管。例如,我们需要直言不讳地面对监管问题,而且必须非常小心地进行监管。你可能会问,应该在哪里进行监管?我的答案是,无论是上游还是下游,都需要进行监管。
对我来说,最紧迫的监管要点之一是在橡胶与道路接触的地方。这是当技术以产品或服务的形式出现时,它将与人们见面,无论是通过药品、食品、金融服务还是交通。然后,你就会得到当前的监管框架。这些框架离完美并不远,但我们需要增强并更新这个现有的框架,而不是浪费时间去创建全新的监管框架,这可能是一个错误的决定。
好的,我们的讨论部分的时间快到了,但我们将进行长时间的问答环节。在我们开始之前,我想问最后两个问题。首先,我们认为这项技术将影响几乎所有事物,而且一些积极影响是非凡的。它将有助于治愈癌症、糖尿病等疾病,有助于缓解气候变化,发明新材料等。我看到有人专注于此,这可以帮助能源部门、航空航天和制药业。这是多伦多大学的一项重大努力。但是,现在有很多以前无法做到的新事物现在可以做到了。所以,它基本上是以以前是小说或想象的一部分的方式推进科学。你对这部分持乐观态度吗?
Hinton:我认为我们都非常乐观。我认为我们都相信它将对几乎所有领域产生巨大影响。
所以,我认为对于在座的各位正在学习的人来说,这是一个非常激动人心的时刻,因为有机会参与限制负面影响和负面后果,同时也有机会参与创造所有这些机会来解决一些问题,这些问题自从我们作为一个物种出现以来就一直伴随着我们。所以,我认为,至少从我们的角度来看,这确实是人类历史上最不寻常的时刻之一。
我希望些刚刚开始职业生涯的人能够真正走出去,追求最雄心勃勃的事情。你也可以努力优化广告和其他事情,或者制作更多的Netflix节目,这很好。但是,我妈妈也会这样,我认为她已经厌倦了Netflix。如果有土耳其或韩国节目,她已经看过最后一集了。
但是对于那些刚刚开始从事这一职业的人,我的建议是,试着想想最大的挑战是什么,以及你可以用这项技术来帮助解决什么问题,这是非常雄心勃勃的。你们都做到了这一点,并且一路上都在与障碍作斗争,以实现这一目标。我想,房间里挤满了人,网上有很多人,其他人随后会看到这一点,他们正处于做出这些决定的初始阶段。我想,我猜你也会鼓励他们这样做,尽可能地大胆思考,迎接最大、最艰难的挑战。
Feifei:
确实如此。我会接受这一点,但我也会鼓励他们,因为这是这项技术的新篇章。即使你认为自己是一名技术专家和科学家,也不要忘记你身上也有人文主义,因为你需要两者才能为世界带来积极的改变。
好的,最后一个问题,然后我们将进入观众的问答环节。我们是否已经到了这些机器具有理解力和智能的阶段?
Feifei:哇,这是最后一个问题。我们有多少小时?(笑)
Hinton:Yes。
Feifei:No。
(观众大笑,鼓掌)
=QnA=
谢谢。我叫艾莉。这太棒了,非常感谢。Geoff,你的工作真的激励了我作为一名多伦多大学的学生去学习认知科学,听到你们两个的演讲真是太棒了。
我有一个问题。您提到了教育面临的挑战,以及如何让大学有能力让学生使用这项技术进行学习。Feifei,您还提到,这有机会成为一种尊严经济,让人们专注于个性化、激情和专业知识。我想知道你们是否对过度使用和过度依赖人工智能可能带来的挑战有自己的看法,尤其是对孩子和学生来说,因为他们正处于教育生涯中,他们需要培养技能,使用大脑,锻炼大脑中的肉体。如果不学习,我们的大脑就不会一直工作而不积累蜘蛛网。
是的,我想知道你对倦怠和过度依赖的看法,以及当你可以使用Stable Diffusion时学习绘画的能力,或者当你可以让ChatGPT 为你学习像莎士比亚一样写作时,技能下降和学习绘画的能力会发生什么。然后,随着这些系统的进步,可以积累更深刻的见解和更复杂的问题解决能力,这会如何影响我们做同样事情的能力。
Hinton:
所以我对此有一个小小的想法,那就是当袖珍计算器首次问世时,人们说孩子们会忘记如何做算术。但这并没有成为一个大问题。我认为孩子们可能确实忘记了如何做算术,但他们得到了袖珍计算器。但这可能不是一个很好的比喻,因为袖珍计算器并不比他们聪明。孩子们可能会忘记做算术,然后去做真正的数学。但对于这个东西,我不知道。
就我个人而言,我发现它实际上让我对世界更加好奇,因为我无法忍受去图书馆花半个小时找相关书籍并查阅一些东西。现在我只需问 GPT 聊天任何问题,它就会告诉我答案。我会相信它,这也许不是正确的做法。但它实际上让我对世界更加好奇,因为我可以更快地得到答案。
Feifei:
所以这些年。所以我会用一个非常简短的故事来回答这个问题。我不确定你们的观点如何,但自我担任斯坦福大学教授以来,我一直对一个神秘的地方充满好奇,那就是大学的招生办公室。对我来说,他们是最神秘的存在。我一直不清楚他们的具体位置,他们是谁,他们在哪里工作,直到今年早些时候我接到了一个电话。
他们希望与我讨论ChatGPT以及大学录取的问题。所以,问题就变成了,我们是否应该允许在申请过程中使用ChatGPT?有了ChatGPT,我们应该如何进行录取呢?因此,我回家与我的11岁孩子进行了讨论。
我告诉他,我接到了这个电话,有关于大学录取的问题。我们应该如何处理ChatGPT和学生的关系?如果学生写了一份极好的申请,我们应该如何应对?我们是否应该使用ChatGPT等工具?然后我问他,如果是你,你会怎么做?
我问我11岁的孩子,他说他需要一些时间思考。他实际上回去睡了一会儿,或者我不清楚他做了什么。第二天早上,他告诉我,他已经想出了答案。
我问他,你的答案是什么?他说,他认为斯坦福大学应该录取最懂得如何使用ChatGPT的前2000名学生。起初,我觉得这个答案有些荒谬,但实际上,这是一个非常有趣的答案。孩子们已经将它视为一种工具,他们将自己与这个工具的关系视为一种赋能。
显然,我的11岁孩子并不知道如何衡量这一点,也不清楚这意味着什么等等。但我认为我们应该在教育中这样看待它,我们应该更新我们的教育方式。我们不能像Geoff所说的那样,将这个工具排除在我们的教育之外。我们需要接受它并教育人类,让他们知道如何利用这个工具来为自己谋利。
我想问一下,我们现在有非常好的基础模型。但在许多应用中,我们需要模型的实时性能。那么,您如何看待这个领域的未来发展,这个研究领域的未来发展,您知道,利用这些专家基础模型的能力来训练快速、较小的模型?
Feifei:
你在谈论推理,我们需要开始考虑性能、推理,还要根据具体情况,在设备上安装模型。不谈技术细节,所有这些研究,甚至在研究之外,都在发生。这正在发生。但这需要一段时间。
我是Ariel。我也是多伦多大学机器学习专业的三年级跨科学学生。谈话非常精彩。然后,我要感谢你,Hinton教授和李飞飞教授。
我只想问一个问题,也许这个房间里的很多本科生或研究生也对此感兴趣。那么,就像你们二十多岁的时候,是什么促使你们成为一名研究员?是什么促使你们进入人工智能学术领域?因为我现在有点困惑,我应该继续在工业界工作,还是直接攻读博士学位?或者先攻读硕士学位,然后回到工业界?
我还有一个问题,你们通常会寻找什么人?比如如果我申请直接进入你们的实验室攻读博士学位?比如GPA、出版物或推荐信?你们能详细说明一下吗?谢谢。
(主持人) 我想房间里大约有300人,网上大约有6000人想问你这个问题
Feifei: Geoff你想开始吗?你二十多岁的时候?
Hinton:
哦,我十几岁的时候就对大脑的工作原理感兴趣,因为我在学校有一个非常聪明的朋友,有一天他来学校谈论全息图,以及大脑中的记忆可能就像全息图一样。我基本上问,全息图是什么?从那时起,我就对大脑的工作原理感兴趣。所以很幸运在学校有一个非常聪明的朋友。
Feifei:
我会非常厚颜无耻地……如果你读过我的书,那实际上就是这本书的内容。
不,说真的,我实际上告诉过乔丹和Geoff,有很多关于技术的人工智能书籍。当我开始写这本关于人工智能技术的书时,我想写一段旅程,特别是写给年轻人,特别是写给各行各业的年轻人,而不仅仅是某种特定的视角。那本书讲述了一个年轻女孩在不同环境中实现或理解自己的梦想并实现梦想的旅程。这与Geoff所说的并没有什么不同。一切都始于激情。
它确实始于激情,一种反对所有其他声音的激情。激情可能来自朋友。它可能来自你看过的电影。它可能来自你读过的一本书,也可能来自你觉得最有趣的学校里最好的科目,不管它是什么。在我雇佣的学生中,我寻找的是那种激情。我寻找的是雄心壮志,一种想要做出改变的健康雄心壮志,而不是想要获得学位本身。当然,从技术角度来说,我看重的是良好的技术背景,而不仅仅是考试成绩,但老实说,我永远也不会进入自己的实验室。如今的标准如此之高。
所以,当你申请博士学位或研究生课程时,你可能已经有一些过往的记录了。当然,这并非一定要这样。如果是Geoff的学生,我会毫不犹豫地录取他们。但我想说的是,无论你是多伦多大学的学生,还是网络上的学生,无论你的背景如何,甚至可能你来自贫困家庭,我关注的并不是你来自何处,而是你的人生旅程。那份记录揭示了你的旅程,展示了你的热情和信念。
主持人:读完这本书后,我想说,对于大多数读者来说,这都是一段非常令人惊讶的旅程。顺便提一下,如果你在加拿大,可以去Indigo购买。你也可以在indigo.ca预订这本书。我相信人们会对此感到惊讶,并且真的会喜欢阅读和理解这种体验。回答这个问题时,你会得到很好的理解。谢谢。
嘿,感谢你的精彩演讲。我叫Shalev,我在Vector Institute与Sheila McIlrath一起工作。我认为基准非常重要。基准就像问题。ImageNet基本上是一个问题,然后人们试图用模型来回答它。所以现在,LLM很难评估。而对于采取行动的通才代理,甚至很难开始思考如何评估它们。所以我的问题是关于问题的,是关于这些基准的。
所以有两件事。第一,如果你坐下来使用GPT-5、GPT-6、GPT-7,并且你有五分钟的时间来玩它,你会问什么问题来告诉你这是这些模型的下一代?第二个是一个更全面的基准。为了评估LLM或通用代理,我们需要更全面的、而不是五分钟的基准是什么?我想,您可以选择您想要思考或回答的那个。好的。谢谢。
Hinton:
感谢您的提问,这是一个非常好的问题。我将回答另一个与此略微相关的问题。这个问题出现在GPT-4中。你如何判断它是否聪明?特别是,我和一个叫Hector Levesque的人交谈过,他曾经是计算机科学的一名教员,他的信仰几乎与我截然相反,但在智力上非常诚实。他对GPT-4的工作原理感到很惊讶,他想知道它是如何工作的。所以我们花了一些时间谈论这个问题。然后我让他给我一些问题来问它。他给了我一系列问题来问它,这样我们就可以决定它是否理解了。所以问题是,它真的明白自己在说什么吗?或者它只是使用一些花哨的统计数据来预测下一个词?关于这一点的一个评论是,你能很好地预测下一个词的唯一方法是理解这个人说了什么。所以你必须理解才能预测。但即使不去理解,你也能做出很好的预测。那么,GPT-4真的理解了吗?
Hector提出了一个问题,他说:“我的家中的房间被漆成了白色、黄色或蓝色,我希望所有的房间都是白色的,我该怎么办?”我知道GPT-4能够解决这个问题。然后我把问题变得更复杂,我说:“我的家中的房间被漆成了白色、黄色或蓝色,黄色的油漆在一年内就会褪色成白色,两年后,我希望所有的房间都是白色的,我该怎么办?”ChatGPT给出了答案,它说:“你应该把蓝色的房间漆成白色,你不必担心黄色的房间,因为它们会褪色成白色。”
事实证明,GPT-4对措辞非常敏感。如果你不使用“褪色”,而是使用“变化”,它的答案可能会不同。有人抱怨说,他们试过了,但没用,他们用“变化”代替了“褪色”。关键在于,如果我们理解“褪色”意味着改变颜色并保持变化,但是如果你说“改变”,它会改变颜色,但它可能会变回原样。所以如果你说“改变”而不是“褪色”,它不会给出相同的答案。这让我相信GPT-4确实理解了。
GPT-4还做了其他事情。最近,人们提出了一个问题,许多聊天机器人都没有正确回答,有些人也没有正确回答。但GPT-4回答正确了。所以,我在回答这个问题:“GPT-4理解了吗?”这和你问的问题有一定关系。
问题是这样的:莎莉有三个兄弟,她的每个兄弟都有两个姐妹,莎莉有几个姐妹?大多数聊天机器人都答错了。人类呢?我刚刚在拉斯维加斯进行了一次炉边谈话,面试官让我举了一个例子,说明聊天机器人出错的地方。我给他举了这个例子,他说六。这有点尴尬,我们不会问他的名字,只是开玩笑。
人们会弄错,但我不明白,如果你不能进行一定程度的推理,你如何能做到这一点。它必须建立一个模型。Andrew Ng举了这些例子,比如在玩黑白棋时,即使你只是给它字符串作为输入,它也会内部建立一个棋盘模型。所以我认为他们确实理解。
主持人:再进一步说,这种理解是否跨越了智能的界限?你说是的?
Hinton:是的,我接受图灵测试的智能。当我们通过图灵测试时,人们开始拒绝它。这就是我所说的移动目标线。
Feifei:
我想快速回答。首先,也要为你提出这么好的问题鼓掌。除了回答Geoff的问题,我还需要解答另一个问题。我认为Geoff实际上在探讨的是,我们应如何评估这些大型模型的基本智能水平?然而,这个问题还有其他几个维度。
首先,斯坦福大学的HAI基础模型研究中心正在制定这些评估指标,你可能正在阅读Percy Helm等人的论文。我认为这项技术已经变得如此深奥,以至于一些基准测试比你认为的ImageNet基准测试更加复杂。例如,现在我们正在与政府机构合作,如美国的国家标准技术研究所(NIST)。我们需要开始根据社会相关问题进行基准测试,而不仅仅是核心基本能力。
我还想稍微扩大你的视野,那就是除了LLM学位之外,还有许多面向人工智能未来的技术我们实际上还没有建立良好的基准。我的实验室正在进行一些机器人学习研究,谷歌昨天刚刚发布了有关机器人学习的论文。因此,该领域将会有更多的研究出现。
你好,我是Vishwam,是圭尔夫大学的研究生。我正在撰写有关人工智能和农业的论文。您刚才提到,大学没有足够的资金来培养基础模型,我遇到了同样的问题。我想从事人工智能和农业工作,我对此充满热衷,但我没有足够的资源来做到这一点。我可能想到了一个非常好的架构,但我无法训练它。所以也许我可以去工业界,然后向他们推销这个想法,但我对这个想法却没有控制权。我不知道他们将如何运用它。那么您对于如何处理这种情况有什么建议吗?
Hinton:
如果您可以获得开源基础模型,您就可以使用比构建模型少得多的资源来对其中一个模型进行微调。因此大学仍然可以对这些模型进行微调。
Feifei:
目前这是一个非常务实的答案,但这正是我们一直在与高等教育领导者以及政策制定者讨论投资公共部门的问题。我们必须拥有一个国家研究云。我不知道加拿大是否有国家研究云,但我们正在推动美国。我们需要引进像您这样的研究人员来访问国家研究云。但作为非公司,你有一个优势,那就是你有更多的机会获得独特的数据集,特别是用于公共利益的数据集,并充分利用这张牌。您可以与政府机构或社区或其他任何机构合作,因为公共部门仍然享有信任并可以利用这一点。但就目前而言,是的,对开源模型进行微调。
(主持人)好的,我们将回答几个问题。我们有数千人在线观看。观看在斯坦福和其他地方举行的聚会。那么,我们来看看是否能从网络上的一些人那里得到一个问题。Leah将代表网络上的某人提出这个问题。顺便提一下,她和Aaron Brindle一起为实现这一目标付出了大量的努力。因此,我要感谢你们两位。
我们确实有数百名在线的人工智能研究人员,他们正在创建以人工智能为优先的公司。第一个获得最多赞同的问题来自Ben Saunders或Sanders。他目前是一家人工智能初创公司的首席执行官,而他的同事实际上是Geoffrey Hinton在2008年的学生。他还提出了有关负责任建设的问题。其中许多问题都与负责任的建设有关。他们正在思考什么措施可以帮助他们作为团队成为适当的管家,无论好坏,以及成为管家的真正意义。
Feifei:
负责任的人工智能框架有很多。我认为几年前有人估计过,从州、民族国家到企业,大约有300个框架。我认为对于每家公司来说建立负责任的框架确实非常重要。你可以借鉴很多东西。甚至Radical也在制作一个或者创建你所相信的价值框架,并认识到AI产品是一个系统。
因此,从上游定义问题、数据集、数据完整性、如何构建模型、部署和创建多利益相关者生态系统或多利益相关者团队来帮助你构建这个负责任的框架,并建立伙伴关系,与像我们这样的学术界等公共部门的伙伴关系,与关注从隐私到偏见等不同维度的民间社会的伙伴关系。因此,真正尝试既从公司的角度考虑问题,又要成为生态系统的一部分,并与拥有这些知识的人合作。这就是我目前的建议。
主持人:我想补充一点。关于Feifei提到的与对此感兴趣的人合作,我认为投资界有些人正在思考和领导这个问题。在我们的案例Radical中,我们在每一份条款清单中都写入了公司采用负责任的人工智能的义务。最初当我们这样做时,一些读过它的律师会问,这是什么?并试图将其划掉,但我们又将其放回去了。
但我们也一直在致力于开发一个负责任的人工智能投资框架,我们将广泛发布该框架。我们与世界各地的许多不同组织合作完成了此项工作。过去四年来,我们已经与7,000家人工智能公司进行了会面。我认为我们已经投资了大约40家。因此,我们已经看到了很多,并试图构建一个其他人可以使用的框架,我们将开源它,以便我们能够开发它并使其变得更好。但我认为,单个公司只要与志同道合的人接触,就能做很多事情。
有太多问题了。因此不幸的是,我们只能讨论其中的几个。但考虑到工业和私营部门在模型开发中发挥的巨大作用,很多问题都与与工业的关系有关。有人提出疑问,即在今天的环境下,研究人员和各类工程师是否也应该学习管理课程?
Hinton:
我想分享一段我在谷歌的经历。我曾经管理一个小团队,每六个月,我们会收到一份来自团队成员的报告。在我收到的一份报告中,有人评价说,Geoff是个很好的工作伙伴,但他可能需要参加管理课程。然而,如果Geoff参加了管理课程,他可能就不再是我们熟悉的Geoff了。这就是我对管理课程的看法。我没有比这更好的例子来说明这个问题了。(观众笑)
我叫Elizabeth Gao。我在Cohere工作。
我的问题是,从私营部门的角度来看,我们与所有人合作,将自然语言处理(NLP)和大型语言模型推向更广泛的社会。对于拥有大量人才和大量数据的特定公共部门、研究机构和大学来说,如何才能找到一种我们可以做出贡献、他们也可以做出贡献的互惠互利的关系呢?谢谢。
Hinton:可以给他们一些资金支持。(观众笑)
Feifei:或者,可以提供H100。我们要H100。但你看,这非常重要。我主张公共部门投资,但实际上我可能更主张合作。我们需要政府、私营部门和公共部门的共同努力。
在过去的四年里,我在斯坦福人工智能研究所(HAI)的主要工作之一就是创建一个行业生态系统。有很多细节我们可以线下讨论。但如果我与大学领导或高等教育部门交谈,我认为我们需要接受这一点。我们需要负责任地接受这一点。有些人会有不同的称呼方式。但我认为这个生态系统非常重要。双方都很重要。建立这种伙伴关系。成为彼此负责任的合作伙伴。资源是一件大事。我们确实会非常感激。谢谢。
主持人:
好的。如此一来,我们的时间就不够了。我要感谢你们二位。我感到非常荣幸能够称你们为朋友,并且能够与你们私下进行这些对话。所以让你们聚在一起并让其他人听到你们要说的话是很好的。非常感谢你们这么做。希望它对你和对我一样有帮助。