近日,2012年国际信息与知识管理大会(ACM CIKM)最佳科研论文奖公布,其中一篇名为“Incorporating Occupancy into Frequent Pattern Mining for High Quality Pattern Recommendation”(by Linpeng Tang, Lei Zhang, Ping Luo and Min Wang)的论文获得了 “最佳学生论文奖”(Best Student Paper Award)(访问链接:http://www.cikm2012.org/awards.php ),该工作是由汤林鹏(上海交通大学毕业生,现为普林斯顿大学在读博士生)和张磊(中国科学技术大学在读博士生)在中国惠普研究院实习期间由中国惠普研究院罗平博士和王敏院长指导完成。
图1:最佳学生论文奖
频繁模式挖掘是数据挖掘研究中最基本问题之一,具有广泛的应用。在传统的频繁模式挖掘中,一般用支持度(Support)来度量一个模式的质量,模式越频繁,说明该模式就越好。然而在有一些实际的应用中,比如网页内容打印推荐,我们发现仅仅推荐支持度最高的模式给用户,效果往往不是很好,这是因为模式支持度越高,相应的该模式中的项(Item)的个数就越少,也就是说,推荐给用户的信息不全,用户还需进一步找到那些不全的信息,从而造成用户的体验度比较差。因此,我们提出了一个新的概念,即占有度(Occupancy),来衡量模式的完整性。结合模式的支持度和占有度,我们可以提供给用户更加准确的推荐。与模式支持度的反单调性不同,模式的占有度既不满足单调性,也不满足反单调性,因此我们很难把现有工作直接应用到我们的问题中。为此,我们深入分析了模式占有度的特性,提出了三个占有度的上界计算函数 (第一个函数的计算速度快,但比较松散;第二个函数很紧凑,但效率相对不高;第三个是效率和松紧度的一个折中,可以提高整体效率),基于该上界函数,我们可以进一步对搜索空间进行剪枝,从而提高算法的效率。最后,在实际的标注数据以及合成的数据的大量实验验证了文章所提方法的有效性。该文独特的视角与透彻的分析,以及挖掘推荐中潜在的商业应用,因此具有重要的科研和实用价值。同时,该文完备的算法设计、充足的实验验证以及流畅的组织表达也受到审稿人以及优秀论文评选委员会的积极评价和肯定。
图2:晚宴合影(从左到右依次为大会主席Xuewen Chen教授、大会议程主席王海勋博士、张磊同学、王敏院长、罗平博士)
2012年度CIKM大会于10月29——11月2日在美国的夏威夷举行,张磊同学参加了本次会议并宣讲论文。ACM CIKM 是信息检索和知识管理领域的顶级国际盛会,每年都吸引大量的学者投稿。本年度共有1089篇论文投稿,但经过严厉的审稿后,仅有146篇被接受为会议长文(接受率为13.4%),157篇被接受为会议短文(接受率为14.4%)。每一届被CIKM大会录取的论文中,只有一篇最佳交叉学科论文奖(Best interdisciplinary paper award )和一篇最佳学生论文奖(Best student paper award)
欲了解更多详细内容,请点击http://blog.sina.com.cn/s/blog_5e13f6110102e1oo.html