大数据时代“掘金机”:百度、360、一淘搜索技术分享

搜索的本质是从海量数据中挖掘价值,如果大数据是金矿,搜索技术无疑是大数据时代的掘金机之一。经过十多年的发展,搜索技术已经在海量数据分析、图谱构造、用户语义理解等方面有了丰富的积累,而这些技术正是大数据的基本技术。2013年12月5日-6日举办的2013中国大数据技术大会上,来自百度、奇虎360搜索、一淘搜索事业部的技术专家将在大数据技术论坛中带来大数据时代搜索技术的实践分享。

百度技术专家:百度知识图谱(Knowledge Graph)

今年8月,百度知识图谱悄然上线。传统的搜索是以网页搜索为粒度的,知识图谱则基于语义、以知识为粒度,从互联网中挖出各种知识碎片,形成答案,从根本上提高搜索质量。过去十年,网页搜索结果几乎不变,如今,这是一种高质量的有问必答式搜索,可以实现智能交互,也预示着下一代搜索引擎的方向。

2013中国大数据技术大会中,来自百度的技术专家将为听众分享百度知识图谱的相关技术,对于想要了解下一代搜索引擎的你,绝对不容错过!

奇虎360搜索技术专家:奇虎360超大规模HBase集群增强与改进

奇虎360搜索上线于去年8月份,如今,据中国国内权威流量统计机构CNZZ在11月17日公布的数据显示,奇虎360搜索在国内搜索市场所占份额已从10月份的20.8%上升至22.6%。然而,360搜索一直较为低调,较少向外界透露自己的核心搜索技术。去年的Hadoop与大数据技术大会中,奇虎360系统部工程师赵健博分享了“HBase系统在搜索网页库的应用”,本次2013中国大数据技术大会中,来自奇虎360的搜索技术专家,将继续讲述奇虎360超大规模HBase集群的增强与改进。

一淘搜索王峰:阿里搜索实时流计算技术

利用批处理方式为搜索引擎提供数据的方式已经成为过去,实时大数据处理时代已经到来,一淘及搜索事业部高级软件工程师王峰(莫问),将揭秘阿里搜索离线生产集群中的流服务调度、流服务框架、分布式消息队列等技术,让你看明白全网商品是如何实时处理并流入阿里搜索引擎的。

王峰曾先后在雅虎中国、阿里云、淘宝和一淘从事搜索引擎和分布式技术领域的研发工作,目前在网页抓取团队,主要负责分布式存储系统和大数据处理技术方向。本次演讲中王峰即将带来的主要内容包括:

全网商品搜索系统架构

全网商品实时数据处理流程

流计算技术揭秘

流服务调度——Hadoop-2.0定制调度器(PriorityCapacityScheduler)

流服务模型——基于YARN的自主流计算模型(StreamService)

流数据传输和持久化——基于HBase的自主分布式消息队列(HQueue)

除了搜索领域的大数据核心技术,第七届中国大数据技术大会中还有更多精彩议题。Spark核心设计者、Databricks创始人兼CEO Ion Stoica,Apache HBase项目管理委员会主席Michael Stack、百度大数据首席架构师林仕鼎、华为公司诺亚方舟实验室主任杨强、Apache Tez commiter Bikas Saha大数据技术专家领衔,来自腾讯、阿里巴巴、Hortonworks、LinkedIn、小米、Intel等50余位工程师带来近60场干货分享,更有《中国智能交通与大数据技术峰会》专场感受智能交通如何改变生活。第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)将于2013年12月5日-6日在北京世纪金源大酒店召开。