数据挖掘顶会KDD2024于西班牙召开,蚂蚁集团19篇论文被收录

当地时间8月25日至29日,为期5天的国际知识发现与数据挖掘大会KDD2024在西班牙巴塞罗那举办。官方数据显示,本届会议共收到2046篇论文投稿,最终接收论文409篇,录用率为20%。

据了解,KDD始于1989年,是全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。

中国人民大学、阿里巴巴、蚂蚁集团、网易等国内高校与互联网企业均有论文被KDD2024收录。比如蚂蚁集团有19篇论文被收录,其中7篇为研究性论文(Research Paper),研究课题涉及图表征学习、数据挖掘、图神经网络、决策优化、大语言模型,自然语言处理,检索增强等。

比如由蚂蚁工程师独立完成的研究“基于结构增强的图链接预测长尾方案”,首次发现并提出了图链接预测长尾问题的定义和常见的节点分类长尾定义不同,图链接预测问题的长尾问题和子图中结构信息(比如共同邻居数量)更为相关,而不是与度相关,因此之前基于度的图长尾方案在链接预测上并不适用。

另一篇蚂蚁独立完成的研究“基于帕累托最优规则挖掘在反欺诈金融科技领域的应用”,引入SpectralRules算法生成多样规则池,增中间阶段用帕累托最优找非支配规则集,简化选择标准。提出PORS框架,评估SSF方法,证明方案优势。

据了解,这些前沿技术的探索与研究,有的已孵化并直接应用于蚂蚁集团前台核心业务。比如论文“基于次模优化的保险风控精准发调系统CEROS”,提出了一套统筹多案件全局风险与成本最优决策方案,不仅能通过数据驱动的方式估计发调的边际递减效应,还能对多案件进行分段式决策,大大降低了搜索计算的空间,大幅提升了风控最优决策的效率。该技术目前已在蚂蚁保险业务中全面应用,在发调阳性率不变的情况下降低了18.8%的成本。

还有的加持了蚂蚁中后台效能提升。比如论文“多任务微调提升代码大模型性能”,提出了一个多任务微调框架MFTCoder,它能同时并行地对多个任务进行微调。通过结合各种损失函数,有效解决了多任务学习中的常见挑战,如数据不平衡、难度不同以及收敛速度不一致等。这一研发成果目前已应用于蚂蚁自研代码大模型CodeFuse,已有超过一半的蚂蚁工程师使用它支持日常研发。

据悉,2023年,蚂蚁集团提出AI First的战略方向,2023年全年科研经费达211.9亿元,连续三年保持增长,保持在民营企业前十位。

期待在人工智能赛道上,中国高校与科技企业继续奋勇直前,缩小差距,掌握更多技术话语权。