卢亿雷:大数据技术对于数字营销的核心驱动力剖析

8月30日,由七牛公司主办的主题为“数据重构未来”的“七牛·数据时代峰会”在上海国际时尚中心继续举行。AdMaster技术副总裁卢亿雷就大数据与数字营销发表了演讲,以下为现场实录:

 
        卢亿雷:大家上午好,非常的容幸在七牛做分享,我的题目主要是讲大数据营销带来技术的一些洞察力的分析。
 
        首先我们看一下大数据技术到底有多少的高深,前面的都是大咖,我就不多介绍了,对于大数据来说,我的想法把大数据做出来的时候,其实我觉得这才是第一步,很小的一步,最重要的是怎么样运营好,所以这里有7个运营的特性。BAT公司,他们的产品做出来的话,最最关键的不是产品做的多么多么的好,而是保证24小时服务不停。所以有高可靠性,高可用性和高扩展性是大数据提供的一个方式。
 
        高安全和易监控维护为什么会重点的提出来呢,对于安全来说,因为大数据的话,人在大数据前面就没有隐私可言了,所以对于大公司来说,安全也是非常的重要的。象一些物理的隔离,最后一点是硬件维护,我们最最关心的是怎么样在第一时间里发现问题,并解决问题,这个是最最重视的部分,所以AdMaster公司除了做系统监控,还做应用的监控。保证了我们的数据可靠性。接下来我们看一下整个数据平台的架构。也是比较通用的,这里我只是说了二个点。一个是做搜索的分布式系统,这个大家可以搜索一下,我只说几个最关键的点。
 
        关于Flink,叫增量迭代,买一次计算,把数据内存拿过来做计算,可以保证把中间数据迭代的结果保存在内存里面,这样子的性能可以更高一些。这个技术我们看下来,数据营销的分类有一些什么特点,上午刘老师会详细的介绍。我这里简单的介绍一下,第一点,数据营销分了二大类,一类是叫全流程营销。比如是做一个活动的页面,你可以做一些推广,整个的广告会流起来了。
 
        第二个是实时竞价营销,就是我们做的交易系统,AD,DSH,SSP和DMP,这个我就不详细的展开了。这个是流程图,我们AdMaster公司,做所有的数据投放的,我们是做DMP是做一个数据管理的平台,不光是把广告交易的数据,包括一些搜索的数据,包括微信微博,还有新闻,还有一些门店的数据,把整个做一个大融合给广告主提供服务的。
 
        这里的一个非常的基本的投放的原则,我们做广告营销或者是数字营销,无非是你怎么样在合适的时间,在合适的地点,把适合的商品推给最适合的人,所以广告都是非常的精准。这里有一个最最重要的就是时间,因为大家知道,特别是政府的数据,要把我们所有的信息公开,但是不知道时间,比如是今天上午,我们做一些什么,这个时间的话,分了行业的。
 
        接下来我们看一下核心的技术,这个是我把它总结了一下,整个大数据平台的传统的架构,因为大数据里面,你怎么样把这个数据存储做分析,最基本的是怎么样把硬件更好的结合起来,大家知道现在的硬件是越来越便宜了,那怎么样把最好的硬件用到最适合的系统里面,第一个是是普通的硬盘,  发现如果是你想提高性能的话,调很多的参数的话,可以解决90%多的问题,也可以节省时间。
 
        还有一块如果是你对时效性的要求很高的话,百度他们的机器可以达到秒级甚至是毫秒级。Redis这个就不用多解释了,我们看一下数字营销的核心的算法,有SVM,聚类,分类,这一点的话,其实做一点算法的同学,他们很多都是原来的模型来做的,举一个例子来说的话,一个人他的属性是在变化的。我们听了分享之后,你回到了家里,可能会转变角色,可能你是爸爸妈妈,或者是兄弟姐妹,你在投放广告的时候,一定是要根据不同的时间来做变化,这样子可以达到很好的效果。
 
        然后第一大类就是离线数据分析,第二个是在线数据分析,我们先看一下离线数据分析,最特别的地方,用户自己的需求,一定是要转换到最后的计算,做一个切分。用户的需求提出来的时候,你肯定不能马上的解决,Rabbitmq,然后还有Redis,还有FIesever,你把结果计算完了以后,很多的用户,或者是客户,他们以前的是老系统,没有新系统,你拿大众的系统,才能满足他们的需求。
 
        第二个是计算模型,我们用的很多,包括Pig,streaming,cascading,你要满足用户的需求,所有的模型都是不一样的接下来是我们通过平台,,每天新增5TB级的数据,每天对千亿条数据进行几千种维度的计算。我们会对上千亿条的数据进行计算,这一点的话,大家也可以看到,我们对一天五千到一万的维度进行计算。除了硬件,你怎么样可以解决问题,这一点和百度,阿里做了很多的沟通和交流,很有挑战性的,五签到一万例的话,你加的条件可能是随意的条件,有很多可以做的地方。
 
        在线数据分析,这个是非常经典的模型,因为我们每天大概是有超过一百亿的请求接受,包括了新闻,BBS,各种各类的数据,然后就是一个调节器的系统。可以把数据源通过统计的平台进来,把数据进行一个处理。
 
        接下来是一个Stom,我们这里用的一个最最关键的地方,一个是时效性,第二个是有一个时间序列的概念,我们认为必须是严格意义上的时间序列,原来是12345,计算的结果也应该是12345。通过一些算法模型,这地方我想说一下,在我们这里,我们不叫知识库,叫做社交图库,这个人一定是和社交有关系的,传统的数据库很难把数据表现出来,我们最近在做这一方面的研究,我们应该很快就可以上线了,还是不错的一个公司。
 
        另外的话,大家知道,对于情感分析,一般就是正面负面,但是对于一句话来说,可以解释不同的类型,比如说A说B是好的,对于B肯定是正面的,对于A来说,可能是真心的,也可能是负面的。接下来我们会把一些数据的结果放到里面,象微博,微信。我们会处理各种不同的报表,对于数字营销最最痛点的分析,对于隐私来说,大家都是非常的关心的。所以这里我们提到的解决方案,既然是A公司和B公司,大家都不愿意把数据源贡献给对方,就是找一个可信的服务厂商做这个事。把数字加密,保证数据不会流失。或者是不会被人窃取。
 
        我们看一些非常经典的实例,如果是A公司和B公司的IT不在一起也是很难做的,所以可以通过共有云的解决方案,自然是可以解决刚才的问题,所以我们找到了一个可信的云服务商,包括阿里,包括七牛,都是很好的合作伙伴,将来的话,就可以在七牛的服务器上做计算,计算完了以后,把报告倒出给客户最后把所有的数据都销毁。这样子了话,就可以做一个非常非常弹性的计算模型,包括把数据做的安全可靠。
 
        另外一点,这个是我上半年做的一个研究,到底大数据,或者是数据是一个怎么样的意思,我这里说的数据流,对数据是不是越稳定越好的,比如说我们每一个人都可以拿到用户的身份号码,包括银行的卡号,是不是一个合适的方式呢,我说是No,第一点,整个的数据是有生命周期的,数据必须是活的。只要是这个数据流动起来,它就没有价值。
 
        就好象是货币只有流通起来,才有价值,如果是不流动的话,是没有任何的价值。这是第一点。第二点一定是有寿命的。这个我说是整个行业的发展,比如说我们和某一个公司做了一个交易,把公司的安装ID买过来了以后,如果是IE一直没有变化的话,他们二个以后再也不会做交易了,因为数据我都已经有了,以后再也不会合作了,这样子会导致整个生态圈这是一条线。所以我们这里提了一点,第一点就是这个数据必须是有生命周期。大家都希望双方公司的合作是一直合作下去的,而不是我买了数据以后,下次就不用合作了。对于移动端的设备,包括现在的苹果的APP,里面的ADFA是苹果做的一个官方的SID,基本上会在三个月左右做一次更新,这样子可以保证整个的数据不停的被更新,而不是一成不变的。保证了数据源可以持续的合作。
 
        接下来我给大家分享几个案例,这几个案例我认为还是非常的经典的。第一个是象AdMaster主要是做的DA系统,这是一个广告的交易平台,里面最最关键的地方,不光是把交易里面的数据做出分析,还有它怎么样把搜索的数据加入进来,这时候最大的特点是什么呢?因为每一个人,每一个用户买了东西以后,现在的微博微信发展的很快,买完了以后,一定会去朋友圈,微博,论坛会抱怨一下这个产品到底是好还是坏,对于广告主来说的话,他的品牌出现了任何的品牌,都可以实时第一手拿到材料。
 
        最后我给大家举一个非常的有意思的例子,这个例子很火,我想问大家一个问题,大家都不喜欢看广告,特别是看电视和视频的时候,但是我想问一下大家,大家对于微信的朋友圈的广告,它是通过数据流通,你看到最近投的宝马,还有Mini的广告,大家认为喜欢这个广告的有多少,50%,40%?还有没有?我们有72%是喜欢这个微信广告的。为什么会喜欢微信朋友圈的广告,不仅仅是把广告推给你,最重要的是互动。每次出了广告以后,你们都会点一个赞,不光是广告主在打广告,其实用户也是在参与的过程中,这样子的话,不是很反感这个广告。
 
        第二点,因为微信的发展很快,他们都说这次宝马推了广告给我,我本来是一个屌丝,推给了我,我感觉自己成了高富帅了,对于广告营销来说,不仅仅是一个数据分析,如果是把社会心理学加进去以后,可以把广告做的更好,比如我明明是一个屌丝,但是推给了我宝马的广告,这个广告可以达到很多次的口口相传,这个也是一个很重要的原因。
 
        做广告的时候,首先是要做预测,不管是传统的视频,或者是电视,或者是大屏幕,电线杆之类的。首先是要做预算,预算完了以后做评估,然后会再做分析,怎么样做跨屏的广告的投放,这里是非常重要的,因为我们在看了广告以后,对于广告主来说,希望的是怎么样的把广告投放给更多的人看,所以怎么样做跨屏的分析。
 
        接下来作弊识别模型,其实我和大家说一下,广告作弊的还是挺多的,包括地域,包括IT,包括页面,包括用户的一些分析,有很多的的手段来判断它是不是作弊的。所以我们在接下来12月份,会有一个防作弊大赛,告诉用户怎么样的是作弊的,所以的人都可以来参加这个作弊的模型。
 
        这个是全流量的分析,你看过的一个广告过来以后,最后到了官网,到了它的首页,到产品的页面,到注册的页面,最后到成功的购买。这个有一点类似百度统计看到的信息,这里面还是有很多点的。第一点是怎么样把你的活动的效果,包括流量的分析。
 
        这个是移动端的消费分析,移动端的发展很快,每一个人通过最后的一跳把APP下载,其实有可能最后安装这一跳的不是你花钱最多的地方,有可能是用户看了A广告以后,然后才通过APP搜索,作为广告主来说,不希望把这个钱直接花在安装上,他是希望在广告效果最好的地方出现。所以我们会分析ABC媒体,怎么样做转换的分析,发现A的效果是最好的。
 
        最一个案例是在2013年的时候,可口可乐的昵称瓶的案例,可口可乐公司当时做的时候,怎么样可以提高它的销售,通过我们的搜索分析,就发现了包括用户,特别是80后,90后,对白富美,高富帅这种词是非常的有兴趣了,那是不是可以生产一些有昵称的瓶子作为销售,最后发现通过这种方式,销售额提高了10%以上,大家知道快销行业,可以提出5%个趋势,10%是一个很大的数字了。大家觉得不是说一次性的把这个词给可口可乐公司去生产,而是是一个迭代式的方式。第一次我们看到的是白富美,高富帅,第二次的时候,可以多一些其他的。这样子可以节省成本。通过一些生量,互动性,发贴率,做了很多的分析。
 
        因为时间的关系,我就分析到这里,谢谢大家。