什么是机器学习?
随着近两年物联网、共享经济等新商业模式的涌现,在数字化的大潮中,越来越多的数据被收集起来,包括网络数据、用户信息、设备数据、位置信息、用途模式、点击流数据、应用程序数据等。虽然很多人还没真正了解机器学习是什么,但是机器学习已经悄悄的进入人们的生活,比如音乐App可以根据您的历史记录推荐喜爱的歌单。当前在电商、医疗、能源、交通等行业都有大量的资金涌入,希望通过机器学习从数据中获得更多有价值的洞察。
但是机器学习的进入门槛比较高,它涉及多领域学科,包括概率论、统计学、逼近论、凸分析、算法复杂度理论等。当前开源的算法包虽多,但是对于不懂编程的领域业务专家,依然很难下手。另外,搭建一套高效稳定的数据分析平台,对于企业来说维护成本较高。
依托云计算,华为云推出易用、高性能的机器学习平台—MLS
2017年9月,华为全联接大会上,华为Cloud BU总裁、兼IT产品线总裁郑叶来先生面向企业市场,首次发布创新的企业智能(Enterprise Intelligence, 简称EI)。华为EI分为三类:基础平台服务、通用AI服务和场景解决方案。其中,华为云机器学习平台(MLS)是EI的一项基础服务,帮助用户通过机器学习技术迅速发现数据规律,构建预测模型,并将其部署为预测分析解决方案。
对于一家企业的CEO,最不愿意看到的就是竞争对手已经开始借助机器学习优化提升产品竞争力,而自家的IT部门主管还停留在用PPT给你汇报智能系统的愿景。华为云MLS可以让企业快速低成本搭建预测分析平台,让企业聚焦到发掘自身业务数据价值上。
华为机器学习服务的特点
● 丰富的机器学习算法库:从数据导入、预处理,到模型的训练、评估、管理,覆盖数据挖掘端到端业务。拥有10大类、50多个基础机器学习算法,拥有300多个其他常用算法。覆盖多数场景下特征工程、数据处理需要。更方便的是,它把各个算法逻辑化,统一封装成图形化的节点(Node)提供给用户。同时,华为算法工程师已经对各种算法进行调优,提供了一套默认工作良好的参数组合,你根本不用担心参数如何调整。
● 直观易用的机器学习方案:面向熟悉业务,但不熟悉相关建模语言的数据分析师通过可视化界面的,拖拽式的数据建模方式——Workflow,提供所见即所得的建模开发界面。
● 交互式建模分析:面向数据科学家提供基于交互编程方式的数据建模能力——Notebook,支持多种建模语言(Python/R等)。涵盖数据探索、特征工程、数据建模等数据分析过程。
● 模型生命周期管理能力:支持模型的生成、预测、部署、调度等完备的模型生命周期管理能力。支持业界标准的模型PMML的导入导出,与其他机器学习软件进行无缝集成。同时,企业用户可以一键式发布创建好的模型到生产系统中,并通过调度完成业务的自动预测功能。
● 可视化:支持数据可视化和模型可视化功能。内置丰富的图表类型,数据处理过程中可根据需要选择不同的图表进行展示,所见即所得,提升数据探索效率。训练的模型、评估结果可视化,提升模型的可解释性。
● 分布式可扩展的大数据计算引擎:底层使用华为分布式大数据分析MRS服务,使用增强开发的HDFS、Spark、Hive等组件,支持大数据分析。内置算法在分布式处理性能上进行了专项优化,相比开源实现有更好的性能和线性加速表现,支持处理更大规模的数据。
案例应用:使用MLS进行电影个性化推荐
日前,中国电影产业发展迅猛,规模几乎达到世界第一,线下票房位居全球第二,观影人次居全球首位。每天上线着各式各样的电影,面对庞大又不断增长的电影,人们如何在海量剧库中快速找到自己喜爱的电影变得十分困难,此时,如何更懂用户,快速推荐出用户喜爱的电影,提高电影网站的用户体验,变得越来越重要。
电影网站面临如下挑战:
● 数据量大,搭建维护集群成本高
● 分析难度大,缺乏既懂机器学习编程及建模又懂业务的专家
● 模型管理部署维护复杂
华为云MLS平台,是构建在华为云上的一项数据挖掘分析平台服务。只需购买服务,即可通过丰富的算法库、高易用的建模界面、高性能的计算引擎,发现数据中的规律。再通过MLS具备的端到端机器学习模型的全生命周期管理,为业务数据和应用生成预测结果。
电影的历史评分数据通常是这样描述的:用户A对电影B的打分为C,那么用户A会对电影X感兴趣么,感兴趣的程度如何?针对这种场景,可以使用MLS里面的推荐类算法进行预测。
第1步:开通MLS平台。(http://www.hwclouds.com/product/mls.html)
第2步:数据探索,通过可视化工具了解数据
电影数据保存在文本文件中或数据库中供后续使用。数据主要用三张表保存,分别是用户表、电影表、用户电影评分表,数据格式和内容类似如下。从表的内容上我们可以看出,用户电影评分表是这次分析的关键。
对比传统的数据分析工具,MLS服务提供的可视化功能更加易用,让数据分析师的工作更加快捷高效。
下图为使用MLS预览的电影数据,图中最小的点表示观众,较大的点表示电影,点越大表明此电影被关注的程度越多。用户就是茫茫小点中的一个,用户也许已经看过某些电影了,但还有很多电影和她之间没有建立联系。
单击某一具体用户,如图中的user500节点,用户节点以及她看过的电影节点被高亮了出来。可以看出来还有很多电影是用户没看过,但是movie953、movie954、movie971是被她关注、评论过的,那么同时关注这些电影的人的观影品味很可能和这一用户很相似,可以利用这群人的观影列表来给我们做推荐。
第4步,建模预测
针对建模预测过程,MLS具备如下特点,让熟悉业务,但不熟悉相关建模语言的数据分析师,可以快速创建所见即所得的建模开发方案。根据协同过滤方法的分析,将用户、电影数据上传到华为云的对象存储服务OBS上。机器学习服务借助MapReduce服务来提供可按需扩展的高速并行计算能力。数据可以被轻松的加载到HDFS文件系统进行高效建模。
● 数据分析流程可视化,提供所见即所得的应用界面。
● 丰富的算法库,只需将算子拖拽进来即可进行建模。
运行工作流并查看输出数据,prediction表示预测的评分值,我们对它进行降序排列,可以看到用户对ID是919的电影最感兴趣。在电影数据表中,可以简单的查到ID是919的电影名称等信息。
MLS提供了模型的全生命周期管理能力,支持模型的生成、预测、部署、调度等完备的管理能力。将模型应用到生产环境中,到此,一个完整的电影推荐的机器学习分析方案就完成了。
MLS可以应用到各式各样的领域,帮助企业快速进入人工智能时代
● 产品推荐:根据客户本身属性和行为特征等(年龄、工作类型、婚姻状况、文化程度、是否有房贷和是否有个人贷款),预测客户是否愿意办理相关业务,为客户提供个性化的业务推荐。例如金融行业的理财推荐、终端业务的应用推荐等。
● 预测性维护:为设备创建预测模型并提供预见性维护建议和计划,减少故障时间和发生几率,从而提高效率和降低成本。例如汽车行业的车辆零部件维护建议、半导体行业中流水线制造过程的失效预测等。
● 客户挽留:客户流失具有多种形式,如切换到竞争对手的服务,减少服务使用量或切换到较低成本的服务。通过分析客户属性和行为建立客户流失模型,预测可能流失的客户,指导企业给出挽留方案。例如电信行业、电子商务行业的客户挽留模型等。
● 客户分群:通过数据挖掘来给客户做科学的分群,依据不同分群的特点制定相应的策略,从而为客户提供适配的产品、制定针对性的营销活动和管理用户,最终提升产品的客户满意度,实现商业价值。例如销售行业中根据零售商进货的种类和数量进行的零售商分群识别、电商行业中根据客户购买行为进行的客户聚类分析等。
● 异常检测:在网络设备运行中,用自动化的网络检测系统,根据流量情况实时分析,预测可疑流量或可能发生故障的设备。例如物联网应用中根据网络流量情况识别网络攻击、识别设备是否正常工作等。
欢迎来体验MLS服务:http://www.hwclouds.com/product/mls.html