大数据分析中的“眼见为实”

在大数据分析中,有很多的“眼见为实”,这里的意思是通过一定的数学方法给出了量化的值,我们认为这个数学方法是没错的,计算值的方式是没错的,则我们认为这个值就代表了“真相”。但是事实真的是这样吗?

空说太枯燥了,举几个栗子:

分析出来的真的是根因吗?

使用大数据分析一个重要的使命就是发现事物的内在关联,其中一个应用就是进行根因分析,尽管我认为,在未来的社会知道是什么比知道为什么更加重要,但是现在仍然还是因果关系主导的世界,我们总是尝试用大数据来分析问题出现时的根因。

这里面有个问题,在没有人工经验的情况下,你分析出来的根因有可能只是一个现象级的规律甚至是一个反向的因果。

比如,想知道太阳每天早上升起的原因,分析如下:1.太阳每天早上都会升起。

2.公鸡每天早上都会打鸣。

3.假如你不知道太阳升起和公鸡打鸣的科学原理,你是不是会得到结论:公鸡是太阳升起的根因?

这里有一个不是办法的办法是,加入工程经验的分析判断,这里就是纯粹的数据分析工程师和我们提倡的全栈算法工程师的其中一点差别,也是门槛所在。

相关系数真的靠得住吗?

相关系数,往往用来衡量两个变量之间相关性高低,我们先看下经典的皮尔逊相关系数的定义:

这是衡量线性相关性的经典公式,但是,变量之间是非线性的呢?

举个栗子,下图中温度和冰激凌销量几乎为0,你能说两者没有相关性吗?

真实世界中很少有线性关系,大多数的都是非线性关系,比如GDP增长与时间的关系、收入与幸福的关系等等,都是呈现log的曲线形状,用相关系数来衡量,会发现呈现弱相关。

这里有几个办法:1.数据可视化观察。画出图来,实际分析一下,是否与得到的量化值是一致的? 如上述的例子,实际通过图来分析就知道,实际是非线性相关。这也是数据分析领域很重要的一块内容:数据可视化。

2.偏相关。原理类似于求偏导数,基本思路是固定其他维度来分析当前维度与目标的相关性。网络规划优化中绝大部分都是属于这种情况,比如,分析宏观的吞吐率和用户数的关系,需要在覆盖、干扰、用户行为一致或者差不多的情况下来分析,这也是网络规划优化难的地方。再回到刚才温度和冰激凌的例子,高于35度,冰激凌销量和温度是负相关,可能是有其他因素没有考虑到,比如:温度过高大家都不出门了,选择在家里避暑,而冰激凌本身也不适合网购,从而影响冰激凌销量。如果用偏相关的方法做,那就是要分析在出门次数这个特征差不多的情况下,分析冰激凌销量和温度的关系。

数据的分布真的有那么重要吗?

非常重要!

过于重视算法本身而忽略数据本身是错误的,数据处理和分析这个过程在大数据建模的过程中耗时至少要达到一半及以上。

还是举几个栗子:

第一个栗子,还是刚才聊的相关系数:

按照相关系数计算公式,x和y的相关系数比较高,原因是因为一个异常点的存在,如果去除掉这个异常值,则x和y没有相关性可言。但如果没有进行数据分布的分析(可以参考离群点检测的一些方法,这里不展开),则认为x和y是强相关了。

第二个栗子,分类:

假如你通过某种算法得到了一种模型进行分类,分类准确率有80%。

假设检验样本的分布是下图,那么80%的分类准确性还是比较理想的。

假设检验样本的分布是下图:

也就是说,我的模型随便蒙一个,比如,无论检验样本是什么,我都认为样本是蓝色的,这样模型的分类准确性也在80%以上。

这只是个例子,真实的网络中进行目标和特征的回归有很多这样的现象,需要做一些额外的样本平衡的处理,平衡样本处理是一块单独的内容,简单描述一下,主要是两个大类。

1、过采样。过采样的原理是将样本较少的一类的样本数目填充起来,填充的办法很多,最简单的就是重复采样,高级一点的就是通过一定的衡量准则(如距离)利用几个样本生成新的样本(如距离平均)。

2、欠采样。欠采样是对样本较多的一类的样本数目通过采样的方法降低,采样也有一些方法,最简单的就是随机采样,高级一点的是根据一定衡量准则(如信息熵)来采样。

另外还有一整套的分析模型的方法,如回归诊断,在里面可以对数据进行很多分析,如正态性、独立性、线性、同方差性等等,这些都是后续分析和建模最基础的,这里不展开描述,有机会可以单独写写。

顺便说一下,大数据的建模最后的公式可能只有一个,但是得到这个公式需要大量的尝试、观察、分析。那个很经典的例子,福特的流水线出问题,斯坦门茨画了一条线解决了这个问题,开价10万美元,看结果貌似很简单,但是背后是支撑他画这条线的技能储备,这个储备价值99999美元。

想了解大数据分析的更多知识吗?10月10日-12日在上海世博展览中心举行的华为全联接大会将有多场大数据分论坛满足你的需要。趁现在,最低单日票价只要150,快来点击华为官网售票页面,开启未来通道吧!