百度网页搜索变革:基于大数据的智能推荐
蓝调 发表于:13年06月06日 15:00 [原创] DOIT.com.cn
第五届云计算大会于2013年6月5日—6月7日在北京会议中心隆重召开,本次大会以“大数据大带宽推动云计算应用与创新”为主题,以全新的国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题,分享云计算发展经验,促进云计算创新合作。
6月6日上午,中国电子学会云计算专家委员会委员、百度公司副总裁范丽发表主题为“百度大数据与云计算”的演讲。
在演讲中,范丽回顾了百度过去一年在大数据和云计算方面取得的成绩,包括基础设施和架构的进步、百度移动云在基础设施上的应用,以及网页搜索的改革。
在基础设施和架构的进步方面,范丽谈道,百度一直是全球前五大互联网公司之一,用户量也是前五大。存储能力是大于2千PB,处理量是10到100万PB每天,收录的网页有千亿和万亿。百度做云计算有一个很大的目标,就是尽量降低成本,提高效率。在过去的10个月,从去年7月到今年4月,每GB的存储空间成本降低超过50%。当然,这是硬件和软件同时进步的结果。除此之外,百度还通过GPU提高到34倍的计算能力。整机柜服务器已经在南京机房上柜,自主研发的万兆设备可以使接入成本下降83%。这些都是百度在基础设施和架构方面取得的进步。
据范丽介绍,百度在北京的数据中心达到了年平均PUE1.36,最佳平均1.18,在北京这样的条件能达到全年约一半的时间完全免费冷却。
谈到大数据和云计算的发展,范丽认为大数据在云计算时代真正火起来需要一定的条件,从百度的时间过程中看到,大数据还需要很多的技术才能真正发挥作用。
百度最新一代搜索将加入“智能推荐”
百度从09年开始研究新一代搜索——即搜即得、即搜即用、不搜即得。最新一代的搜索百度做了更深度的数据挖掘,用数据图谱的关系挖掘出更深层次的知识关联,能够在网页的右侧给用户带来一些崭新的兴趣激发。
范丽举例解释道,例如在百度上搜李德毅院士,左侧是所有关于李院士的各种信息,李院士的百度百科,包括他最新的新闻,他的图片,他写的著作在百度文库上的存储等等,这是很自然的搜索,没有加入任何处理。右侧我们想推介一些关联性的信息,比如说有哪些李院士的同事是工程院院士?有哪些李院士涉及比较多的领域?最有趣的是推广链接,是关于李院士自己著作的一些书籍的广告,这些是综合的整合和深度的挖掘,这是我们下半年做的“智能推荐”。
以下是演讲全文:
范丽:在座的各位专家,各位领导,大家早上好!很高兴今天有机会跟大家分享一下百度在这一年来在云计算和大数据上的工作和成绩。同时,我也想借此机会阐述一下我在百度负责云计算和大数据的感想和观点。
今天我的演讲主要分三个部分:第一部分,跟大家一起回顾一下这一年来百度云计算和大数据的成绩。取得的成绩主要分三个部分,一部分是基础设施和架构上所做的工作。第二部分是百度移动云在架构和基础设施上的应用。第三部分介绍一下我最新负责的网页搜索的改革。
第二部分我想介绍一下云计算的厚积和薄发。我之所以选择这个标题,是想跟大家探讨一下云计算经过这么多年的积累是不是已经到了薄发的阶段,我觉得很快到了,但还有很多问题需要解决,才能真正爆发出它的威力。
第三部分,我总结一下我个人认为大数据在云计算时代真正火起来需要的条件。听了怀校长的讲话,我觉得很多观点都是相似的,大数据还要很多的技术提升才能让大数据真正发挥作用。
先简单回顾一下百度在基础架构和设施方面的发展。我们的存储能力是大于2千PB,处理量是10到100万PB每天,收录的网页有千亿和万亿。这些数据是跟世界一流的互联网公司媲美的,百度一直是全球前五大互联网公司之一,用户量也是前五大。
我们过去做云计算有一个很大的目标,就是尽量降低成本,提高效率。在过去的10个月,去年7月到今年4月,每GB的存储空间成本降低超过50%。当然,这是硬件和软件同时进步的结果。
这些是我们在基础设施方面取得的进步。今天下午还有专题的报告,我们的GPU可以提高34倍的计算能力。整机柜服务器已经在南京机房上柜,自主研发的万兆设备可以使接入成本下降83%。
我们的国内大型数据中心PUE的最佳实践,在北京的数据中心达到了年平均PUE1.36,最佳平均1.18。在座的一些领导应该跟我们的团队一起参观过,我本人也多次去数据中心。在北京这样的条件能达到全年约一半的时间完全免费冷却。
在基础方面有了这么好的架构和设施,我们也做了非常多的大数据工作。百度做大数据是天然的,必须做,而且能做得好的工作。首先我们有非常多的数据,不管是用户数据、网页数据,还是互联网上各种各样的暗网数据,百度在十多年的积累中已经存储了很多、处理了很多,这几年更要做到非常智能的分析,能够在分析处理计算中给用户带来更多的价值。
下面我再简单介绍一下移动云应用。如果在座各位参加了去年的百度云开发者大会,已经看到过我们的七种武器。下面我简单介绍一下百度移动云的思路,它是依托在传统云计算上的优势,给用户提供个人云,以个人需求为中心,让用户拥有计算、存储的能力。你不需要担心存储空间,不需要担心安全和备份。当我们的生活中有多种设备,Pad也好,手机也好,一处修改,多端同步。
今天的主题并不是讲移动云,我只是简单介绍一下。其实我们的移动云还有多种多样的武器,有兴趣的同学可以再看一下。
总体来说,百度的思路就是我们有云能力,我们建设云平台,我们希望开发者用最少的成本获取用户流量,获取收益。也希望用户有更多的个性化的创意云服务。我们之所以能做这些,是因为百度公司在做搜索引擎的时候积累了很多技术,也积累了很多自己的想法。
我们的个人云服务产品在短短的一年多时间获得了非常多的好评,使用率、品牌影响力都是名列前茅的。
有一个数字可以分享,我们的开发者注册量到5月初已经突破了20万,这些都是在百度云平台上,希望能够面向用户的非常有创意的开发者。
最后一点是我想介绍一下百度下半年开始研究的新一代搜索。即搜即得、即搜即用、不搜即得,不仅是给你带来很好的信息,同时应用也好,各种暗网信息也好,都能够非常便捷。这个是从09年开始研究的。
最新一代我们做了更深度的数数据挖掘,用数据图谱的关系挖掘出更深层次的知识关联,能够在网页的右侧给大家带来一些崭新的兴趣激发。这是我举的一个例子。如果你在百度上搜李德毅院士,左侧是所有关于李院士的各种信息,这个是很自然的,没有经过任何处理。我也搜过怀校长,也搜过吴部长,基本上是类似的。李院士的百度百科,包括他最新的新闻,他的图片,包括他写的著作在百度文库上的存储。右侧更多的并不是主需求,而是我们想推介一些关联性的信息,比如说有哪些李院士的同事是工程院院士,另外还有哪些李院士涉及比较多的领域。我觉得最有趣的是推广链接,是关于李院士自己著作的一些书籍的广告,我自己感觉还是很相关的。这些是综合的整合和深度的挖掘,这是我们下半年做的智能推荐。
第二步是整体的百科知识。我自己也有小孩,他们非常关心各种各样的博物馆。我举一个例子,上海博物馆,在左侧有关于上海博物馆这个主体的各种信息。在右侧,我们看到了有几层不同的信息展现。第一层是博物馆的展品。第二层是上海市区比较热门的展览景点,如果你去上海博物馆,有可能关心附近的其他热门展点。第三层,有些人到上海可能看博物馆,也可能去城隍庙,也可能去新天地。
第三个例子是医疗。最近我们在医疗上有很多改革,这是我们的积累。百度百科积累了很多用户信息,我们做的是进一步整合,将一个症状拓展到其他病人提出的问题,也拓展到这个症状可能带来的其他疾病,也拓展到因为你想治病而需要的医生和医院。
以上是百度在过去几年中在云计算和大数据方面的实践。今天我还想跟大家探讨一下云计算是否到了厚积薄发的阶段。我觉得在相关领导的关心和行业努力下,已经积累了很多的能力,但有没有薄发,我要跟大家探讨一下。
我个人认为互联网的发展一直到了98年、99年,有了谷歌、百度这样的搜索引擎才真正爆发。在没有搜索引擎之前,用户看不到很多网上的内容,你非常困难地知道原来互联网有这么多的信息,这么多有用的东西。有了搜索引擎,让人们更多、更快、更便捷、更整合地看到这些信息,因为用户看到了它的价值,商家看到了它的价值。搜索引擎发展到现在,我们经历了SNS,也经历了移动互联网设备的变迁,用户不仅可以通过PC接触互联网,你的Pad、手机、智能电视,可以随时随地接触到互联网,整体的威力应该更大。是不是已经爆发出来了?云计算本身已经打好了非常深厚的基础,但这个引爆点有没有到来?我觉得还需要做更多的努力。
为什么这么说?我想举几个例子。在今年年初,江浙地区爆发了禽流感,引起了全国的恐慌。从正面来看这个例子,比起十年前的SARS,政府、社会的反馈都是非常正面,而且迅速的。百度做了什么?应该说这就是今天禽流感的结果,我们在左侧整合了很多跟禽流感的信息,在右侧推荐了预防方法和与疫情相关的内容。
再比如雅安地震。在当天,百度公司所有产品人员都聚集在公司,我们整合了很多信息,比如全网寻人、其他互联网寻人的平台,还包括地图实时的救援路线。
我个人觉得我们可以做得更多。有哪些呢?比如刚才怀校长讲到了,如果数据分析达到一定的水平,是不是可以预测流感的趋势?如果百度可以非常迅速地把信息整合起来给用户看,能不能做到预测?包括余震的时间,百度也是尽我们的所能在第一时间发布。但是,我觉得从时间的发布到百度公司能够拿到信息,由于线上和线下的阻碍,时间会比较慢。还有就是余震的路线,在雅安救灾的过程中有很多不必要的阻碍,比如救援的路线、高速的拥堵,很多互联网公司已经获得了这些信息,但我可以想象救援的队员怀着一腔热忱去救援的时候,他身边没有能力及时的拿上PC上百度或者是其他互联网。如果我们能够及时整合到手机里面,一旦我们意识到你的路线在下一步会有所拥堵,我们会通知你换一条路,给一线的救援人员让路。我觉得这些信息都散落在各地,但是把它串联起来的工作还需要做。
接下来的例子是我们一直说的医疗。在5月初,百度上了一个新的交互模式,比如你搜小儿咳嗽,我们会根据症状来分析有可能是小儿支气管炎,也有可能是小儿肺炎。同时,如果你想治病,向你推荐在你这个地区有哪些知名的医院,有哪些权威的医生。如果点这个权威的医生,下面的词条会展开说这个医生有可能帮助你。这已经不是我们简单地告诉用户一些简单的词条,而是可以直接告诉你下一步想知道的信息。
医疗是民生的刚需,在座各位都知道在中国看病非常难,像协和、北医三院这样的好资源非常少。每一个人看病,不管是给父母,还是给孩子,我相信都经历过挂号难、咨询难,想找到靠谱的医生难。在这些方面,我们能做哪些工作。百度在这个方面已经有很多的积累和研究,下一步会做更多的。在网上卖药品的时候,是不是能迅速判断药品的真伪?我们已经推出了药监局和我们联合发布的权威数据,如果你有药品的名字,它的号码能够查到药监局审批的时间和信息。
如果是用户的情况,有一些小毛病,比如我孩子身上找一些瘊子,网上一查,如果整合得好会发现如果经常游泳,孩子就容易长瘊子,有一些很基本的自我治疗的方法,你就不需要挤到医院去排队两个小时问医生5分钟。
我们也会积极地整合一些社区,比如你家里有一个常年中风的老人,有哪些基本的预防措施和护理措施,百度经过多年的产品积累,这些服务是可以给大家提供的。
我们在互联网积累了这么多数据的情况下,还有很多工作可以做,而且能够切实地帮到我们的用户。
再看一下交通,很多人为了参加大会,今天又是北京的雾霾天,肯定需要提前设计好路线,能够提早到达会场。在交通中,我们已经做了很多,比如百度地图会提供实时的交通拥堵路线图。有一些开车的人知道,可能过了半个小时,中间有一个交通的管制或者是事故,绿色可能就变成红色。当时你已经在路上了,你怎么办?在这一点上,你可以想到,我们今天有云计算,多个设备信息同步,这些技术都是有的,只是我们的产品开发者还没有想得更深、更透,能够把用户的需求串联起来。刚才我讲到交通拥堵的实时变化情况。如果你开在一条路线上,是这个应用的用户,这个应用完全可以跟百度地图结合起来,发现一个事故的时候,它会告诉你可以选择另一条路线。像这样的例子,我们从技术上和云计算的能力上已经准备好了。但是,从产品理念上,过去还是更多关注企业的效率、成本,还没有关注到民生,将用户在生活中的每一步串联起来。
最后再介绍一下教育。这个是2013年的在线教育趋势。这几年,美国在线教育的发展规模一直在稳步上升。在中国也有一个缓慢上升的趋势,但这个趋势比起美国来说还是比较缓慢。另外就是教育的民主化。
在中国的教育行业,我们都是在中国的教育体制下成长起来的,很多人都知道入学难、择校难,我们要做各种各样的选择,很多信息是缺失的。我举一个例子,百度公司有一位非常有名的科学家,最近他的小孩是小升初,他原来在市中心念一个非常好的名牌小学,他希望他的小孩既能够有严谨的学业,也能够获得开放的心态。他自己是做搜索引擎的,经历了多轮的搜索,很痛苦的折磨,最后他告诉我找到了所有的信息,但基本上是太太全职在家搜索了一个多月,才把所有的信息汇总起来。
从这个例子可以看到信息的不整齐、不透明、不公开,使用户在生活中进行选择的时候有很多困难。但这些信息本身完全可以公开,我相信我们的政府、我们的各位专家坚信是可以公开的,是可以给用户带来价值的,但我们还没有做到这一步。我希望在座的开发者们能够跟百度公司一起多想一想用户真正的刚需,他生活中的衣食住行需要的。把我们这么多年积累的智能化的数据分析、智能化的数据理解、云计算的能力发挥出来。
最后我总结一下,如果想让大数据真正活起来,第一,非常欣喜的是在我们这么多年的积累过程中,云计算已经有了整合处理分析大数据的能力。但是,要改变生活,首先要改变意识。不仅仅是成本的问题,不仅仅是效率的问题,还有便捷性、连贯性和整合的问题。在我刚才举的很多例子当中,我们的信息是碎片化的。
我们也有很多在线教育、医疗信息化的工作,我刚才在台下读了云计算大会的安排,包括有一个医疗信息化的专题。就像这些教育、医疗,我们每个人都真心关切,是云计算和大数据要真正做到的,要真正改变的。很多例子的瓶颈在于线下到线上,我们有那么多的数据,全国有那么多优秀的医生、优秀的医院、优秀的老师,他们的精力、他们所特长的、他们对教育、医疗的观点有很多,从线上到线还没有做到。还有一点是我一直强调的,就是要刚需。在生活中不可回避的一定是教育、医疗、出行。数据的信息化、公开化、实时化是大数据要活起来的基本要素。大数据活起来了,使用的灵活了,我们才能真正用技术改变生活、改变社会、改变自己。
谢谢大家!