大数据时代,不少企业面临选择大数据还是小数据的矛盾。事实上,选择什么样的数据战略,需要基于企业的现状和目标进行判断,从而选择最能支撑企业业务发展的战略。近期,《软件和集成电路》杂志在封面刊登了百分点首席数据科学家杜晓梦博士撰写的《大数据、小数据,我们该何去何从?》一文,分享企业在应用大小数据方面的方法论。
在大数据炙手可热的时代,众多企业纷纷引入和拥抱大数据,然而小数据对企业的价值同样不可忽视。那么,大小数据各有哪些优势?企业是否需要大数据?在面临大数据和小数据时,企业究竟该何去何从呢?
大数据和小数据的优势
“大数据”这一概念自从被提出之后,得到了业界广泛的关注和讨论。那么大数据的概念是什么呢?
维基百科对大数据的定义是“所涉及的数据量规模巨大到无法通过传统方式,在合理时间内进行截取、管理、处理,并整理成为人类所能解读的信息”。这个概念主要在描述大数据体量大这一特征。而美国白宫在2014年发布的《大数据白皮书》中这样定义:“大数据集是庞大的、多样化的、复杂的、纵深的和分布式的,它由各类仪器设备、传感器、网上交易、电子邮件、视频、点击流以及现在与未来所有可以利用的其他数字化信号源产生。”
目前,大数据的概念没有一个权威而统一的定义,但普遍认为大数据具有四大特征:
1.体量大(Volume):事无巨细的数据记录,过程数据远多于结果数据;
2.速度快(Velocity):数据稍纵即逝,需要实时采集;商机时不再来,必须实施应用;
3.多样化(Variety):多种数据来源,内容五花八门;多种数据结构,标准无法统一;4.价值高(Value):可以帮助企业提高收入、降低成本;通过提升预测力带来价值。
而“小数据”是指什么呢?大体上来说,小数据或者传统数据,和大数据相比,体量比较小;实时性偏低,离线采集数据比较多,如问卷数据;没有大数据多源异构的特征。一方面,小数据基本采集于单一数据源,例如CRM系统或财务系统等,而大数据倾向于采集多种数据源,打破企业信息系统之间存在的数据孤岛。另一方面,小数据基本以结构化数据为主,而大数据涵盖了企业里种种非结构化数据,如图片数据、客服系统的语音留言、网站日志数据等。
首先,小数据一般来说都比较准确,信息含金量高,分析成本较低;而大数据价值密度较低,需要沙里淘金,分析成本也比较高,一般需要服务器集群进行支撑。
其次,大数据涉及的维度比较多,多数情况只能研究和解决相关性问题,而不是因果性问题。例如在大数据应用的较广的个性化推荐、互联网广告领域,业界经常会利用机器学习算法构建各种“黑盒”模型,目标是为消费者推荐他可能购买的商品,或者展示给消费者他可能感兴趣的广告,但很少有模型能揭示出其内在的机制和原理。而小数据研究就能精确衡量某些因素对消费者行为的影响,无论是学界还是业界,都可以通过实验室、问卷、A/B组等研究方法解释消费者的偏好和选择,小数据的研究和应用更具备可解释性。
最后,小数据专注于研究消费者的心理、态度、品牌认知等这种看不见、不完全由行为体现的问题。
企业是否需要大数据?企业是否应该引入和拥抱大数据呢?
这个问题需要因行业而定,因企业而定,具体问题具体分析。我们看到有些行业在大数据应用上走得很快,例如金融行业利用大数据解决征信问题、辅助反欺诈业务;广告行业利用大数据做精准广告投放、消费者触达;零售快消行业利用大数据做用户画像、标签体系等。而另一些行业则发展得慢一些,如建材、环保等行业。
另一方面,一般来说规模大、数据多的企业在大数据使用方面比较得心应手,而规模小、数据少的企业在这方面的投入要少一些。很多企业在看到大数据给其他企业、行业带来很高的价值时,都会急于想要引入这一流行的技术方案,而没有做充分的研究和论证。
那么,基于企业现状,我们应该如何去应用大数据呢?在这里建议企业在做大数据选型之前先回答以下几个问题:
1.企业有哪些数据?只有盘点好自己的数据资产才能意识到自己的数据现状和存在的问题。从生产、销售、营销、财务等领域做综合的盘点,将历史数据盘算清楚,这是第一步。在做数据资产盘点的过程中,要注意核实数据的质量、价值、准确性和有效性,对内外部数据的所有权进行定义,整理出企业目前的数据资产列表。
2.企业的哪些业务需要大数据支撑?这是一个非常关键的问题。很多不太成功的大数据项目大多忽略了一个问题,就是我们的业务是否需要大数据的支撑。如果只是为了做大数据而做大数据是没有意义的。相反,如果企业在引入大数据技术之前,能够先召集业务部门进行探讨,倾听业务部门的困难和诉求,对日后引入大数据技术是非常有帮助的。企业需要坚信一点,最好的大数据应用一定是为业务服务的。
3.企业需要构建的大数据应用是否有足够的数据支撑?在回答完第二个问题之后,企业可能会意识到,我们需要解决的业务问题,目前并没有足够的数据进行支撑。这时候,就需要通过某些方式增加、积累企业需要的数据了。补充数据有很多种方式,例如利用爬取技术获取互联网公开网页的数据,又如采购一些对口的外部数据等。
4.企业需要的大数据应用优先级是怎样的?大多数企业需要的不仅是一个大数据应用,而是通过构建一系列的大数据应用,全面提升企业的技术能力,同时支撑不同业务部门不同的诉求。大部分企业,尤其是大型企业在推进大数据规划的时候都采取“平台先行、应用跟上”的思路,先在整个企业内部构建一个汇聚全渠道数据的大数据平台,或称数据湖,将企业多源异构、零散的数据孤岛进行打通,建立基于消费者、产品等不同领域的统一视图。在此基础上,有针对性地构建面向生产、销售、营销、服务等不同业务部门的大数据应用。
大数据+小数据=智能数据
企业在积极拥抱大数据的同时,亦不能忽略了小数据对于企业业务的价值。举例来说,宝洁、联合利华等大型快消品厂商,每年在问卷收集这种小数据项目上的投入是巨大的,通过对小数据的分析,有利于他们的市场部门准确定位品牌、细分消费者、开发新产品、把握消费者心理等。
传统的市场研究领域曾是小数据的天下,而这种格局随着互联网的兴起和大数据技术的普及正在逐渐被改变。如今的市场研究领域正流行将大数据和小数据结合在一起进行分析。
例如老牌市场研究公司尼尔森与中国电信合作开发的产品,依托于中国电信的线上行为数据,结合尼尔森的市场研究方法,提供不同品牌的消费者特征、线上表现等信息。再如拥有中国最大在线样本库之一的极速洞察公司,与京东云联合开发的Zeus洞察系统,结合了百万级消费者的问卷信息与京东亿级规模的消费者行为大数据,为品牌商更好地了解他们商品的受众群体、竞争态势和线上购物路径提供了完整的解决方案。对于快消品牌的市场部来说,这无疑是升级了的新型武器—大小数据结合的智能数据工具。
同样的例子在金融行业也逐渐盛行起来。传统的银行业也开始尝试将大数据与小数据结合起来进行深入分析,以指导业务。银行业传统线下业务产生的小数据包括客户基本信息、资产信息、财务信息等,金融属性强、价值密度高,但却单一,只体现了消费者在金融维度的特征。
而随着电子银行和手机银行的兴起,银行客户的行为逐渐向线上转型,这使得银行的营销部门、零售部门不得不思考,如何结合线上大数据更好地对客户进行分析和提供差异化的服务。如今越来越多的银行开始打造线上线下大小数据结合的用户画像标签体系,结合客户在银行网点注册时留下的小数据,以及在线上渠道留下的浏览、点击、收藏等行为大数据,建立维度完整的用户画像,为客户提供更加个性化的服务。
在一个案例中,某大型连锁经营银行将第三方大数据引入,与行内小数据结合进行建模分析,发现“近三个月有过金融相关互联网媒体网站浏览行为”的客户对这款贷款产品更感兴趣,而这一洞察如果没有结合三方大数据是不能被认知到的。最终经过大小数据融合的营销建模分析,使得营销效果响应率由20%提升至45%,单个客户的营销成本节省50元,极大地提高了银行的营销效能。
大数据时代,不少企业面临选择大数据还是小数据的矛盾。事实上,选择什么样的数据战略,需要基于企业的现状和目标进行判断,建设最能支撑企业业务发展的数据战略。在推进大数据规划之前,企业一定要深入思考和规划,而不是盲目投入。大数据和小数据各有所长,有机地整合在一起能发挥更大的价值,相信在可预见的未来,我们能看到更多行业产生“大数据+小数据”的智能数据应用。