“有序漏斗”算法难题 有望在易观A10峰会获得新突破

 

伴随新零售、新金融、新娱乐等新业务类型的崛起,大数据的巨大能量渗透到互联网生活的方方面面,以大数据为基石的移动应用正在改变世界。如何在技术层面实现“漏斗”升级,并充分释放大数据的丰沛能量,是当前数据应用领域的重要议题。

进入互联网下半场,移动应用的主战场从增量用户抢夺转向存量用户运营。提高用户留存率和活跃度成为产品运营的核心。用户使用某一移动应用时,通过路径去实现目的。如用户网购行为,可视为“浏览商品→加入购物车→生成订单→支付订单→完成支付”路径。路径中每一个节点都存在不同程度的用户流失,层层递减后整体形成漏斗形的模型。目前公认的计算关键路径方法有两种:无序漏斗和有序漏斗。

在无序漏斗中,前后事件的发生可任意排序,比如用户在页面间随意切换和返回主页操作,不受步骤间的逻辑顺序约束。而有序漏斗的每个步骤之间有严格的顺序限制,第二步的事件必须发生在第一步之后。如支付过程中,需要先选择购买之物,才能进入相应的付款操作。有序漏斗广泛存在于购物支付、信息注册等逻辑层级要求严格的路径行为中。相较用户路径重合率极低的无序漏斗,有序漏斗的数据研究更有价值。

“漏斗”模型的计算核心是分解和量化。面对海量庞杂的用户数据, “有序漏斗”由于有逻辑上的约束条件,在计算过程中面临的挑战更为艰巨。批量处理海量数据的同时,难以保证实时处理复杂数据的效率。“漏斗”升级的技术难点落在计算速度上。

一些互联网公司投身到大数据分析工具的研发当中,希望从技术层面实现“有序漏斗”计算效率的突破,然而鲜有关键性成果面世。究其原因,一是难以找到具有相当量级的数据作为测试对象,二是缺乏强有力的技术支撑。

针对“有序漏斗”计算效率的技术瓶颈,“2017易观OLAP算法大赛”将对此进行联合攻坚。作为已经拥有易观万像和易观千帆等成熟数据产品的行业领导者,易观此次对大众公开需求,向数据高手广发英雄帖,招募算法高手共同突破“有序漏斗”的技术难题。

从主办方获悉,本次易观OLAP算法大赛的参赛规则为:参赛者根据主办方提供的应用转化和OLAP场景,先利用测试数据集在指定测试集群上运行给出测试结果,最终用实际测试数据在测试集群上跑整体数据并给出用时排名。

在技术层面,大赛选拔使用的OLAP漏斗场景,要求满足海量数据实时多维度有序分析模型。在数据处理上,可以通过数据切片和预处理,列存储、压缩及字典以及索引等的综合使用,在细节方面可以结合一些巧妙的推理,减少计算量及复杂度,实现针对特定维度数据的精准观察。还可以通过下钻等操作,提高数据粒度细化程度,得到层次更丰富的数据细节,让数据分析做到有效率、有深度、有价值。

在数据层面,截止2017年第三季度,目前易观每日处理数据261亿条,累计覆盖来自297个领域的21.9亿个智能终端,监测超过251万款移动应用,数据存储容量达5.8PB。本次大赛依托于易观亿级海量数据库,使比赛成果更具可信度和现实指导意义。

本次大赛云计算服务由UCloud提供,目前大赛已正式进入竞赛环节,近40个团队和个人将分别参加商业组和开源组的比赛。商业组吸引了包括咪咕音乐、北京乐见科技、南京帆软软件、杭州玳数科技、北京润乾信息、Kyligence、AggreData、Gbase等企业的技术强队。开源组有来自小米、美团、热云数据、原速数据、LinkDoc、hulu、乐享天下、牛办科技、上海睿民以及北京交通大学的数据高手参加。

10月27日,易观A10大数据应用峰会将在北京盛大开幕,届时,将决出本次OLAP算法大赛的优胜队伍,大赛的优秀案例还将在峰会展示。顶尖数据大咖指导,国内高手联合攻坚,“有序漏斗”计算效率难题或将迎来重大突破。