10月20-10月24日,多媒体方向顶级学术盛会ACM Multimedia 2021于中国成都正式召开。阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束。淘系技术通过该Workshop开源了业界首个首个大规模的多模态视频商品检索数据集,并联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起多模态检索领域的国际挑挑战赛,旨在共同推动电商直播场景中多模态商品检索识别的研究和AI技术在实际应用场景中的落地。
在电商应用场景中,淘系技术通过直播商品识别算法,实现淘宝直播过程中商品和直播讲解点的有效关联,让消费者可以通过点击商品跳转观看该商品的真人讲解,实现边看边买的沉浸式消费体验。而直播间讲解商品多,视觉相似程度高,直播场景复杂度高,给直播中商品检索识别带来巨大的技术挑战。如何基于直播内容的理解,进行多模态商品检索和识别,是非常值得研究并需持续投入的课题。
基于淘宝直播数据构建的多模态视频商品检索数据集Watch and Buy (WAB),淘系技术于4月27日正式发起第二届淘宝直播商品识别大赛,相较与第一届大赛,在赛题设计上引导选手注重全类别的识别效果,特别是长尾的商品类别、视觉纹理简单商品的识别等,另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。
本届赛事共吸引来自北京大学、清华大学、中科院、卡耐基梅隆大学、伦敦大学、南京大学、浙江大学等全球知名高校学者组成的587支队伍参加,历经3个月的激烈追逐,最终来自中科院计算所、北京大学、中南大学组成的队伍分别获得本赛事的冠军、亚军和季军。
其中来自中科院计算所的冠军队伍的F1分数高达0.69,超过baseline 0.22,Top3队伍的F1分数均超过0.6。在论文征集部分,workshop共接收了5篇论文,包括两篇long paper,三篇short paper。
Watch and Buy Challenge & workshop 成果总结
阿里巴巴淘系技术资深算法专家李晓波表示,“淘宝拥有最大规模的商品库,淘宝直播作为直播领域的先行者,实现通过直播的方式更好连接商品和消费者。在这个过程中,如何通过AI的能力,更好的理解视频直播内容,提升用户边看边买的消费体验是我们一直的追求。本次workshop通过提供真实的多模态商品识别的应用场景、数据,希望能够促进更多学术和工业的结合,激发更多创新研究和技术落地。”
本届ACM MM 2021 的大会联席主席,来自浙江大学的庄越挺教授也表示,“阿里巴巴提供了真实的高质量的直播商品检索场景和数据,能够让学术界很好的参与到这个问题中。”
欢迎大家持续关注获取WAB开源数据集
淘宝直播多媒体商品识别数据集:
https://tianchi.aliyun.com/competition/entrance/531893/information