2014百度世界大数据论坛在北京大饭店举行,百度研究院副院长余凯给大家分享了对深度学习构建百度大脑的思考,下面是余凯的演讲内容。
余凯
以下为百度深度学习实验室主任余凯演讲实录:
余凯:各位来宾、各位同行、各位朋友,欢迎来到百度大数据论坛,刚才祥云医疗胡总举的例子,其中拍照识别皮肤病技术是我们IDL的小伙伴们开发的基于深度学习的图象识别技术,通过我们的技术创新让大家的生活更加健康,更加美好,这就是我们工作的意义所在。下面我给大家分享一下我们从事深度学习构建百度大脑的思考。
人工智能很重要
这个是麻省理工学院科技理工杂志在三天前提供的一个文章,他讲的是介绍百度的人工智能之梦,介绍百度技术、人才方面的积累。百度从它诞生的第一天开始它就是一个人工智能公司,一方面我们通过搜索引擎满足用户每天的搜索请求,产生大量的用户数据。另一方面我们提供价值,连接人和广告,让千千万万的商家能够找到他的顾客资源,这种从数据到价值之间有一个桥梁,这个桥梁在百度就是基于百度大数据人工智能,包括自然语言的理解,包括机器学习,也包括今天Robin和劲都提到语音识别图象识别等方方面面的技术,使得百度能够把大量的海量数据转化成商业价值。
在座某些朋友可能知道这个著名的曲线,这个是Gartner每年都要发表的趋势表,显示出科技往前发展的趋势,这个HYPE是什么意思,可以理解为我们中国人讲的“忽悠”,所以比如说3D打印到现在到一个期望的顶点。但是当前的技术并不是那么成熟,因此大家对他的期待会降低。但是市场不断往前推进,同时技术也会逐渐成熟,慢慢真正的市场机会来临,比如语音识别,图像识别就是。
这个图表里面大量的技术,比如说语音识别,虚拟现实,机器人,智能推荐,都是跟人工智能有关。人工智能就是如此重要,包括最近我们看到在美国的Google,Facebook,他们都相当重视人工智能。在中国,百度是最重视人工智能研发的互联网公司。前不久,我们的国家领导人习总书记在院士大会上也提及人工智能是第三代产业革命。
核心战略——深度学习
人工智能取得最突破性的进展并且迅速在工业界产生影响的一个极为成功的例子,就是深度学习。同样这也是麻省理工学院科技评论杂志将深度学习技术列为十大通用技术之首的原因,这个最初来自学术界的研究成果影响到各大高科技公司的速度和广度是非常罕见的。我们有幸把包括Google大脑之父吴恩达在内的世界最顶级专家吸引到百度,他是在这个领域赫赫有名的人物。
百度在整个互联网业和高科技行业是领先者,因为我们是最早把深度学习做为公司的核心战略方向的高科技公司。我们在去年年初宣布成立IDL,这是百度历史上第一次宣布成立研究机构,核心目标是研究基于大数据的人工智能。
机器学习在过去30多年的时间里大致分为两个阶段,第一个阶段是浅层学习。第二个阶段从2006年开始进行更深层的学习。深度学习最吸引大家的一个原因在于它在很大程度上模拟了人脑神经网络的结构和行为,这里面的细节不多讲,但是就我们目前所知道的比如说对于图象的处理,我们通过训练得到的深度卷积网络,跟我们目前所知道的对人的视觉皮层神经元的行为有惊人的类似,我们同样发现人对听觉感知也有类似的情况。
百度大脑经过过去一年多的时间,它经历了一个高速发展的阶段。今天,百度大脑无时无刻不在学习,就像人脑一样,今天和昨天是不一样的,会越来越聪明。我们现在能构建世界上最大的深度神经网络,达到百亿级参数。刚刚永忠提到我们的GPU,我们的数据中心,方方面面的能力不是一朝一夕能够积累的,百度过去在大数据方方面面的积累,通过这种能力我们才能更好的开发各自不同的深度学习模型,应用于图像和语音识别,搜索,和广告推荐技术等等。
百度大脑智能连接
百度大脑让连接更智能。首先人来到百度这个平台,表达他的搜索需求,这个搜索需求有可能是关键词,有可能是一段话,有可能是拍个照片,就要靠百度大脑来识别用户的意图,在精确识别用户搜索意图后,我们用深度学习来对网页语义相关性排序,从而匹配用户需求,这就完成了人与信息的连接。另一方面是连接人与广告和服务,我们通过大规模的深度学习,去估计和优化点击率和转化率,进而把人连接到所需要的广告和服务。我们的深度学习已经用在百度核心业务的方方面面,真正实现智能连接人和信息,智能连接人和服务。
深入百度大脑,百度大脑里用到一种叫深度语义神经网络的模型,它是百度大脑用于自然语言,去匹配query和网页的语义相关性,这是业界第一次把深度学习用于提升搜索精度的成功案例,也是迄今为止深度学习用于语言文本信息最成功的应用。另外,我们的凤巢广告系统,它背后基于机器学习的点击率预估模型,从第一代浅层的机器学习模型,已经过度到到用更复杂的模型、更深的模型的时代。
同样我们不断的讲到大数据,大数据实际上给深度学习给人工智能带来很大的机会。但如何处理大数据、如何获得大知识、给我们带来了新的技术挑战。怎么样去处理?我们是世界上最早大规模的利用GPU做深度学习的高科技公司,我们通过各种各样的数据并行,模型并行去处理这些海量数据。我们还可以支持,生成,配置针对不同的应用、不同的场景和不一样的网络结构。在今天Robin也提到了,在中文语音移动搜索的方面,在基于内容的图像搜索方面,我们现在做到了世界领先,这个是跟我们在大数据训练深度神经网络所取得的进展分不开的。
基于深度学习的OCR技术,还可以像人一样读懂文字。比如一个实际的例子,我一个外国朋友在上海看到某个菜单,他想知道这个菜单中是否满足他想要的菜品需求,他拍照用百度翻译,识别菜单上道菜是牛肉拉面,通过识别后翻译成英文,并有语音的合成,所以这一款小小的APP,体现了百度在方方面面的人工智能领域都有非常深的积累。
我们刚刚上线的拍照答题,在一款产品叫作业帮里。我估计在小朋友们的暑假中可得到广泛应用,如果假期玩得很开心,但临近开学还没有做作业怎么办。就像这页PPT显示的例子,他们可以用这款产品拍下题目,我们的作业帮马上就识别题目,并能找到答案。小朋友们该多开心啊。当然,也许这个对于家长就不那么喜欢了。
不仅是中文OCR,在英文OCR识别方面,我们也都做到世界领先。这里展现的这些例子,人不一定都认清的英文,但是我们的机器能够识别。
百度拥有世界领先的基于内容的图像搜索技术,比如跟我们的竞争对手比,无论是识别结果还是搜索相关性都大幅度领先。希望机器能够像人一样去理解图片,这个是很有挑战性的。在两个礼拜前百度推出了百度移动搜索APP 5.5版本,这个是历史的进步。这是世界上第一款基于深度学习的拍照实物搜索。看这些例子:拍书可以知道这个书的价格,知道它在哪里能够买到;小朋友拿着爸爸妈妈的手机,看着好玩的玩具直接下单,这是多么开心的一件事情;再比如说你要是看见朋友的衣服或者包包非常好看,拍了直接可以下单。
我们在这里看看百度大脑的全景图。我们以前是获取互联网信息,然后做搜索做广告,所有一切都是在虚拟世界完成。但是现在所有的服务离现实世界越来越近,离人越来越近,所以我们通过自然交互,通过穿戴式,了解人的需求,另外物理世界的信息,比如商店,场景,街道,天气等等,都跟我们推送的服务的相关性息息相关,我们现在需要通过智能感知技术获取人和场景的信息,才能推荐更加相关的服务。还有,我们看服务的执行阶段,以前互联网上完成一个预测,做出一个决策,之后是由人去执行,从而完成整个互联网服务环节。未来的互联网服务,需要机器,或者说机器人,自动的完成这服务的最后一公里。比如说某一个人想吃披萨,在网上下单后,一般是要由人来完成制作披萨,然后递送到家的。但是,这个体验不一定最好,因为如果机器知道个性化的口味需求,能千人千面的私人定制这个披萨,而且,自动驾驶能更高效便捷的将披萨送到家里。所以说,互联网的人工智能一定会从数字世界的智能延伸到物理世界的智能,机器人是大势所趋。
王劲也讲到了,自动驾驶项目,需要建立感知能力,决策能力,还有不断自主学习的能力,可以说是人工智能技术的集大成者。从这里的画面可以看到,我们的团队是非常精神饱满的去做这个项目,不光是硬件,我们需要算法做各种条件下面的路面目标检测,比如车和行人,我们还需用OCR技术识别交通标志,还有集成配准各种传感器的信息,形成统一的路况感知。所以你们能够看到今天早上在劲的演讲里的视频,车能够在路面对各种路况做精确识别和理解。
更多深刻学习的思考
此外,我们还能做哪些基于人工智能的产品去影响人的生活?我们看到过去移动设备发展的趋势,现在每个人每天都会用移动设备进行大量拍照,移动摄像头已经成为人眼的延伸,顺着这个趋势,2014年后会发生什么事情,会有什么样的智能硬件,我们不断的在思考。看这页ppt, 人眼的延伸的这款智能设备,是这样的一种形态吗?我们看过去在智能穿戴行业,智能眼镜成为智能穿戴设备的一个品类,大家都在探讨它的应用场景,应该怎么样往前。但我们觉得它可能是要纠正,我们觉得它应该是人眼的“自然”延伸,我们觉得这个自然非常非常重要。大家看,这款设备叫BaiduEye,就是我们思考的一个结果,我们非常强调它是Eye,而不是Glass,因为Eye是自然的人的身体的一部分,Glass是附带外加的。它就像一个助手一样,它真的知道你无时无刻在看什么东西,从而真的把互联网后台的服务变成你的大脑,让你知道如何去更加精准的决策。
这样的设备戴在人的脑袋上面是怎么样一个情况?那我们大家来感受一下,看这页PPT。
大家可能也关心,在一个真实的场景下面,人们戴着BaiduEye是不是足够帅。下面我们请百度的少帅学者顾嘉唯先生上来 …[一段互动和演示]。谢谢嘉唯。我们看看在更多的场景下,大家用BaiduEye可以干什么,请大家来看一段视频。
看了这段视频,我们体会到,科技让我们发现这个世界更加精采。正如今天上午王劲的那句话,有了这么样一款设备,我们整个世界都变成一个大的橱窗。这里实际上透露了我们对BaiduEye的应用场景的一个思考。下面我想跟大家介绍下一位演讲嘉宾。在过去不长的时间里面,我有幸认识到一个朋友,这个朋友他带领着中国家喻户晓的一个非常高端、非常成功的一个商业集团,但是真正吸引我的,他不但是商界领袖,更是对未来的一个思考者。他跟我分享未来科技会在线下的场景给零售服务业带来革命,他有很多的思考,让我觉得非常受启发。我现在给大家隆重介绍这位朋友,他就是银泰投资有限公司,银泰商业集团的CEO陈晓东先生。在陈总上做精彩分享之前,我们先看一段视频,看看BaiduEye对于商家来说它意味着什么,它跟商业零售在线下结合,它会引发什么样的事情,请看视频。谢谢!