基于残存记忆的桌面关联搜索

在信息搜索领域,个人桌面空间搜索一直是一个较少涉及的领域。虽然微软,Google等搜索巨头都推出了自己的桌面搜索产品,但是这些产品仅仅使用了传统的基于内容的关键词搜索。远不如网页搜索比如Google搜索引擎那么有效。我们注意到网页搜索之所以有效,一个重要原因就是人的智能(注意,不是人工智能!)在搜索中的参与发挥了巨大的作用。比如Google搜索引擎的核心技术是网页排序(PageRank)算法。PageRank有效地利用了Web所拥有的庞大链接构造的特性,从网页A导向网页B的链接被看作是页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性。Google还不只看投票数(即链接数),对投票的页面也进行分析,“重要性”高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为“重要的物品”。另外GoogleToolbar还会对一个网页被浏览的次数进行统计和报告。要知道网页之间的链接其实主要都是由人来写入网页的,一个网页被浏览也是由人的点击造成的。所以每当我们写出一个链接,或点击一个链接,就等于把我们的一点智能贡献给了PageRank算法(也同时为Google公司无偿打了一小分工,现在知道Google为何如此成功的秘密了吧)。这就是为什么我们说网页搜索引擎的成功是因为成功地运用了人的智能的原因。毫无疑问目前以及在未来相当长的一个时间段内人的智能仍然会远远超过机器智能。

那么我们为何不将这些技术思想也应用到桌面搜索上去呢?技术思路:在桌面信息资源之间建立关联,并且把人的智能也利用进去。

EMC中国实验室研究开发的XSearcher就是一个基于关联的桌面检索原型系统。XSearcher提供了一种个性化的桌面文档关联方案。在用户日常使用电脑的过程中,它会根据用户的使用习惯和操作行为而产生的一些信息,让电脑自动地记忆并建立桌面文档之间的关联。这些关联不仅可以用来产生基于文档权重的排序结果,还为基于关键词的检索方法提供了一个有益补充,一旦用户遗忘了文档的关键词,或者无法用关键词来描述自己的查询需求。那么就可以通过建立起的关联来找到自己想要的文档。除此以外,它还自动提取了文档的元数据,使得用户可以从多个维度来对结果集进行过滤,比如文档访问时间、类型,邮件的发信人等等。最后在用户查找文档时,XSearcher通过人机交互把一些机器难以处理但对人来说却是轻而易举可以解决的问题用图形的方式交给用户作出判断选择。这样的人机交互方式搜索非常有效。

这项研究成果在今年的EMC创新日进行了公开演示,引起了广泛关注(http://storage.it168.com/a2008/1218/260/000000260704.shtml)。该研究的成果也得到了国际学术界的认可。我们的论文(Jidong Chen, Hang Guo, Wentao Wu, Chunxin Xie: Search Your Memory ! An Associative Memory Based Desktop Search System)已被数据管理和数据库领域的顶级学术会议ACM SIGMOD今年的会议所接受录用为系统演示论文。1995年至今,SIGMOD会议上由中国大陆学者发表的论文也仅仅只有8篇,其中包括研究论文和系统演示。我们会在今年6月在美国(罗得岛)召开的SIGMOD会上演示XSearcher系统。系统演示的视频录像已经发布在Youtube上(http://www.youtube.com/watch?v=XMh-SAvkcao),欢迎光顾。