近日,有AI数据挖掘“世界杯”之称的KDD CUP 2022落下帷幕,蚂蚁安全实验室算法工程师林金镇以单人成团形式在此顶级国际赛事中取得“两冠一季”的佳绩,总成绩名列全球第一。
KDD CUP(国际知识发现和数据挖掘竞赛)是由美国计算机协会知识发现与数据挖掘专委会(ACM SIGKDD)发起的国际数据挖掘领域最高水平竞赛,每年吸引着众多世界顶级企业、高校与研究机构参与,在赛题上多年来保持着对解决实际问题的高敏感度。
此次蚂蚁安全实验室参与的“商品搜索”赛道,是一个机器学习“深水区”应用场景。据赛题发起方亚马逊介绍,选手要挑战的是电商中的核心技术之一,“从非常有难度的搜索查询数据里匹配相关商品”。众所周知,提高搜索结果的相关性可以显著改善客户体验及其对搜索的参与度,重要性不言而喻;但因商品量级巨大且多样、商品信息缺失、搜索输入噪声大等疑难杂症,使得正确分类特定搜索查询商品在当下仍具有极大技术挑战性。
换句话说,这一赛道的要求是需要AI能够不断排除干扰,理解用户可能拼错的搜索词背后的真实需求,给出带来更优体验的结果。
此赛道分为三个赛题:指定搜索查询下的商品排序、查询与商品相关性分类、商品替代品识别。蚂蚁安全实验室凭借多年来在图像识别和自然语言处理领域的积累,对参赛模型的“搜索查询理解增强能力”做了重点升级,在查询准确率上表现优异,从全球1699名选手中成功突围,揽下双赛题冠军。
针对搜索内容文本过于简短、包含信息较少的普遍痛点,蚂蚁安全实验室提出从关联商品描述中提取关键词作为搜索文本特征,同时通过算法大幅扩充搜索文本信息量的方案,实现模型效果的显著提升;面对噪音干扰,则采用自蒸馏手段有效降低噪音影响,从而提升了模型的鲁棒性。
据介绍,本次大赛中蚂蚁安全实验室所使用的关键词挖掘及自蒸馏技术,已大规模应用于交互式风控模型,对支付宝万亿规模交易中的欺诈、赌博风险关键词挖掘发挥了重要作用。技术上来看,交互式风控场景是一个类“商品搜索”问题:AI需要与潜在被骗用户进行对话,在用户模糊且充满噪音的语义表达中敏锐捕捉关键词,判断其真实情况和所处欺诈类型,进而从语料库中自动实时匹配并输出更精准的劝阻话术,以达到用户愿意对话且听从劝阻的目的。当前,蚂蚁交互式风控产品每天与7.1万用户进行深度交流,用户交流意愿平均时长超过90s,涉诈交易用户劝阻止付率提高了80%。
根据公开信息显示,今年5月,国际电信联盟通信标准化组织(ITU)已正式立项由蚂蚁集团牵头的交互式智能风控技术国际标准。这是全球首个交互式风控国际标准。