2014年,朋友推荐一款音乐APP,当时笔者手里的16GB iPhone 5s装着酷狗和酷我两款音乐APP,过了几个月之后,手机上只有一个APP了,那就是朋友推荐的网易云音乐,楞是把一个已经没什么亮点可寻的音乐App给做出彩来了。
究其原因主要在于这款APP知道我喜欢听什么,能根据喜好向我推荐风格类似的歌曲,偶尔还会推荐几首很久之前听过但是忘了名字的歌曲,惊喜又意外,而且,这款APP的评论区里的聚集了一批活跃的、同好网友,让我认识到我的偏好并不孤独。
作为IT行业的观察者,笔者自然知道这背后的技术叫做大数据,偏好推荐是大数据最擅长的,但不知道背后提供大数据服务的不是网易APP的直接开发者,而是整个网易的数据科学中心,2018年4月下旬,在2018首席信息官峰会上海站,笔者有幸见到了网易数据科学中心负责人余利华,这些大数据推荐服务都出自余利华和他的技术团队。
资料显示,余利华于2008年正式加入网易研究院,十年来,一直以来专注于数据基础设施(Data Infrastructure),包括数据存储、数据检索、数据库以及大数据领域的研究工作,在网易的工作期间,参与了分布式文件系统、分布式块设备系统、分布式检索系统、MySQL存储引擎、网易云和猛犸大数据平台等项目。
网易数据科学中心是网易的公共部门,负责网易的数据基础设施相关工作,包括网易云音乐、网易游戏、网易邮箱、网易严选、网易门户(网易新闻APP)、网易考拉等常见的产品中都用到了该部门的大数据技术,其中以网易云音乐作为著名。
余利华提到了一个组非常有趣的数字,普通音乐的APP大概只有20%-30%的音乐被听过,而网易云音乐被听过的音乐大约占到音乐库的80%。这是怎么做到的呢?笔者从余利华演讲中了解到,这一秘诀来自用户创建的歌单(与之相关的,还有一系列想让人记在小本本上的神之评论,等UGC相关内容),就是说网易云音乐靠的不只是大数据推荐算法。
网易云音乐的推荐系统认为,品鉴力比较强的人会创建歌单,从分析来看,这些人在大数据系统中呈现的特征也更明显,从笔者经验来看,同一类型的歌曲才会放到一个歌单里。另外一部分人是分享歌单的人,这部分人认可歌单中的内容,最后一部分是根据普通用户的播放行为做推荐,挑选出最热的1%当热门歌曲推荐出去。
除了网易云音乐的推荐以外,网易大数据的实践场景还包括大数据精准营销、大数据优化工业工艺方案、大数据优化运营效率等等。
网易非常擅长挖掘数据的价值,提取一些共性的东西服务于网易的各种产品,在技术成熟之后,网易通过云服务将这些能力对外输出,对外提供大数据服务,这就是网易的大数据服务。
网易的大数据产品包括两大产品线,一个是开发计算平台,叫做网易猛犸,用来管理数据资产,提供开发环境和大规模查询的能力,一个是商业智能的系统,数据可视化分析平台,叫做网易有数,帮助企业做决策。
在技术架构上,余利华的团队研究和挑选各种大数据相关技术,整个架构的绝大部分的软件都是自己开发的,从各种分布式系统的实现到上层的各种应用,都是自己开发的,非常考验技术积累,当然会有一些开源的方案,比如Hadoop之类的方案。
网易的产品以自用为主,先内部使用,定期向外部发布一个版本,部署上,由于很多时候涉及到企业信息安全,大多数时候都以私有化部署为主。久病成良医,丰富的实践经验是网易大数据与一些别的大数据服务商的重要区别,这也是一种优势。
余利华表示,互联网在大数据领域有天然优势,网易大数据选择将内部成熟的东西分享出去,为企业提供大数据服务,将互联网的技术服务应用到别的行业,从而产出更多价值。
网易大数据部分应用已经具有很大规模。余利华介绍说,网易的大数据平台每天要处理PB级的数据,集群规模有几千台服务器。在服务客户方面,网易的大数据服务对包括吉利汽车这样的制造业、平安科技、汽车之家、中兴金融等等外部企业用户。(文/朱朋博)