阿里忙收购,李彦宏在忙…“深度学习”
虎嗅网 发表于:13年05月20日 10:00 [转载] DOIT.com.cn
路线选择的不同,使百度与腾讯、阿里的移动互联网战略可比性越来越弱。但百度的这个战略也面临挑战,最大的不确定性来自于数据的来源
要搞清楚一个互联网公司当下的主要战略方向其实并不难,只要看它们的创始人在干嘛,基本就能猜个八九不离十。以这个标准看,腾讯的马化腾在抓手机QQ,搜狐的张朝阳逼着自己看雷人电视剧,新浪的曹国伟当然还是在发微博,阿里巴巴的马云……退休了……
百度的李彦宏在做什么?他在年初成立了深度学习研究院(Institute of Deep Learning,IDL)并自任院长,亲自出马去延揽人才,并在全公司群发邮件介绍这些来自Facebook等硅谷巨头的技术专家。“以前就算是VP入职,也是HR和分管高管发邮件介绍而已啊。”三天前,一位百度员工看着又一封Robin发出的新进专家介绍邮件说。
深度学习对百度有啥用?
今年3月,一位在Google领导重要研究项目的人物低调来访百度,还去清华大学讲了次课。淼叔当时发了一条微博,说他会见了一堆百度的技术高管,还可能帮百度在硅谷的研究员招兵买马。
这个人就是Andrew Ng(吴恩达)。在他来访百度之后不久,即入选《时代》杂志年度全球最有影响力100人,成为16位科技界代表之一。吴恩达现任斯坦福大学人工智能实验室主任。他与大公司合作的一个项目,则代表了互联网巨头的下一步方向:这个项目,叫做Google Brain,它的领域,就是深度学习。
鉴于百度发布的研究成果比较少,我们可以用吴恩达取得的一些成果来侧面看看深度学习能干些什么:去年,吴恩达领导Google的科学家们,用16000台电脑模拟了一个模拟人脑神经网络出来,并向这个网络展示了1000万段随机从Youtube上选取的视频,看看它能学会什么。结果在完全没有外界干涉的条件下,它自己识别出了猫脸。
我们要注意的是,这种机器学习与我们通常意义上说的“机器识别”有所不同。现有的很多此类识别,需要人工输入一些用于对比的数据,或者一些已经进行初步分类、打好标签的数据,机器通过学习这些数据的共同点,得出规律,然后再去将规律应用于更大规模的数据中。粗略地说,这是一种“有监督的学习”,需要人工输入初始数据,有时候还要对识别结果进行判断,由此促进机器的学习速度。
而深度学习是一种“无监督的学习”。它基于一种学术假设:即人类对外界环境的了解过程最终可以归结为一种单一算法,而人脑的神经元可以通过这种算法,分化出识别不同物体的能力。这个识别过程甚至完全不需要外界干预。
还是以识别猫脸为例:吴恩达给神经网络输入了一个单词“cat”,这个神经网络中并没有辞典,不了解这个单词的含义。但在观看了一千万段视频,它最终确定,cat就是那种毛茸茸的小动物。这个学习过程,与一个不懂英语的人,在没任何人教他的时候,通过独立观察学会“cat”的过程几乎一致。
现在我们可以看出,深度学习对百度有什么意义了。最基本的,在门槛上,这个领域不是谁都能随便进来的,它需要有庞大的计算能力,海量的人类知识数据;更重要的,它能够完全自主地学习并数字化这个世界——然后就可以让人们搜索任何东西啦。
深度学习对互联网业务有什么帮助?
现在我们可以看看百度在深度学习方面做了哪些工作。年初,百度建立了深度学习研究院;随后,百度硅谷人工智能实验室成立,这个实验室与Google相距只有六英里,方便一些硅谷的人才直接在本地展开研究;5月,Facebook资深科学家徐伟宣布加盟百度,他此前负责的项目是“大规模推荐系统”,更往前,他在NEC美国研究院从事神经网络底层的研究。6月,李彦宏群发了他今年第二封新员工介绍邮件:曾任职IBM研究院、雅虎研究院的机器学习专家张潼加入。
这些是在人才架构上的动作。而在实际成果方面,深度学习的应用已经在2012年就出现了。百度多媒体业务负责人余凯用淼叔做实验对象,演示了人脸搜索能力。可能是出于强化戏剧性效果以便于传播的考虑,这个产品叫“明星脸搜索”。实验对象实时拍一张照片,百度可以搜索出这张照片最像哪个明星——但令人惊奇的是,在百度作为参考列出的互联网图片搜索照片中,第一张就是淼叔10年前拍的一张照片。也就是说,在没有任何其他条件限定的前提下,百度根据一个现实场景,找到了一个确定的人。
由于计算机的高度普及,很多人可能已经固化了“搜索”的印象:面对屏幕上的一个输入框,敲入一串词语,电脑返回一堆链接,用户再逐个点开查看哪个是自己需要的内容。但当我们要教会从没接触过电脑的父母这一搜索过程时,就发现它与人类天生的本能并不相同:父母们往往会指着一株不知名的植物,问电脑是否能告诉我们这是什么;他们也并不习惯键入文字内容(甚至还不会输入法),更希望对着电脑说一句“明天什么天气”就能得到答案。
传统的搜索,其交互方式是人工提炼出关键词输入,才返回答案。所以使用搜索引擎其实是一种技术,考验的是人能否准确观察问题、恰当提炼主题词,做到这些才有可能得到自己想要的信息。这就与一切搜索引擎“公平地为每个人提供信息”的初衷相悖了。
而深度学习的技术配合上大数据的储备,语音搜索、图像搜索等新兴技术就不再仅仅是技术的噱头,而是将搜索用户从数亿拓展到数十亿的大生意。这也是Google、苹果和百度纷纷在语音搜索上推出新产品的原因。
百度的移动互联网战略:抄后路
在PC互联网上,新搜索方式的出现可能仅仅是扩大用户规模。但在移动互联网上,这种变革可能是生死之争。
手机的小屏幕决定,用户不可能像在PC上一样顺畅高速输入,手机的麦克风和摄像头是比键盘普及得多的输入方式。而对语音搜索和图像搜索快速、高效地给出识别与匹配的结果,这正是深度学习所擅长的领域。所以百度语音助手虽然去年才推出,却在效果与一些专业做这个领域好几年的公司打成平手,语音搜索也一举占据了百度移动搜索10%的流量。在语音识别准确率方面,百度2012年一年的进展就超过了过去15年进展的总和。同样,百度图像识别技术应用于全网搜索以后,以图搜图的准确率一下子从20%提升到80%。
更重要的,除了入口之外,基于深度学习的大数据处理,将覆盖整个移动互联网的“后台”。移动互联网与云计算和大数据其实是一体两面的事务,高度移动化的手机等设备决定了它不会具有很强的运算能力,手机更多地是采集各类数据,将之传送到云计算平台,得到结果后再返回手机,供用户使用。将来的各类可穿戴设备也将是这种模式。
所以,在腾讯、阿里纷纷基于APP展开研发与收购时,百度在这个领域显得相对沉寂。其实从去年9月百度世界的战略发布上,就可以看出李彦宏的算盘:他希望在后台提供整个云计算能力,加上百度这些年积累的最为丰富的中文数据与搜索需求,支撑开发者研发、发布各种APP。这样,即使百度没有任何前端的APP产品,也依然掌握了移动互联网的基础设施。
百度无线事业部总经理岳国锋给我们盘点了百度开放给开发者提供的云开发能力与系统保障服务:云储存PCS、应用引擎BAE、云推送PUSH、位置服务LBS、自测平台MTC、众测平台、移动统计、开放平台提交、移动联运平台、In-App Ads。可以看到,既有开发、储存方面的服务,也有发行、营销能力的支持,还在移动变现方面进行了探索。
路线选择的不同,使百度与腾讯、阿里的移动互联网战略可比性越来越弱(其中阿里巴巴着眼于提供电商生态平台的建设,与百度的抄后路战略略微相似)。但百度的这个战略也面临挑战,最大的不确定性来自于数据的来源:腾讯拥有大量基于用户明确ID的行为数据,阿里巴巴则拥有整个互联网价值最高的电商流量数据。在PC互联网上,百度拥有搜索框入口;但在移动互联网上,杀手级APP的匮乏,可能会导致百度在数据采集方面脚步放慢。在移动用户飞速增长的大前提下,如何再造移动入口,通过大数据“深度学习”出移动互联网的未来? 这或许是百度面临的关键挑战。