如何修炼成大数据高手?推荐你看这些书(上)

36大数据 发表于:14年06月10日 17:35 [转载] DOIT.com.cn

  • 分享:
[导读]首先声明一点,千万不要以为看了这篇文章就能成为大数据高手了,不然就不会用“修炼”这个词了,要修炼成大数据高手决不是件容易的事,可以说是非常难的一件事。要不也不会连大数据发源地——美国也不超出10个人(也许就5、6个)能达到这个层次。

 

首先声明一点,千万不要以为看了这篇文章就能成为大数据高手了,不然就不会用“修炼”这个词了,要修炼成大数据高手决不是件容易的事,可以说是非常难的一件事。要不也不会连大数据发源地——美国也不超出10个人(也许就5、6个)能达到这个层次,在中国……算了,就不说了。

这篇文章实际是给你指一条过程异常艰辛,但前途异常光明的路。没有毅力的人,看看就好了,千万别认真。(说实在的,就算要看明白这篇文章,也都不是件容易的事。)

言归正传。要想成为大数据高手,首先要从理念上彻底转变,彻底理解大数据思维,并渗透到血液和骨髓中,否则是不可能成为高手的。换句话说,你的世界观要彻底转变!(我知道,你一定会在心里心:有没有这么严重啊?)

而要实现这个转变,必须经过初级、中级和高级三个阶段的学习。

那三个阶段要怎么学习呢?下面我就会告诉你每个阶段所要用的教材,把这些书读透,你就会实现上面的转变了。

初级阶段:《大数据时代》

作者:[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶

翻译:盛杨燕,周涛

浙江人民出版社

 

不用说了,肯定是这本书。读完这本书,要求你形成大数据的概念,即知道这么几点:

1、绝不是有很多数据就叫大数据;

2、大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同;

3、大数据的特点是“关注相关性,不关注因果”,这是大数据最核心的东西,一定要真正理解,并牢牢记住,不然你就很容易被别人忽悠;

4、大数据采用的是统计的方法;

5、大数据主要是结合人工智能进行机器的自动数据挖掘;

6、大数据主要是用来作预测的。而不是象一般的数据分析,只是分析出历史情况和现状,未来还是要靠人去预测,大数据则是直接告诉你未来的结果。

 

中级阶段:《失控》

作者:凯文·凯利(KEVIN KELLY),很多人都亲切地叫他KK

翻译:东西文库

新星出版社

 

为什么是这本书呢?学完初级阶段要记住的几件事还没忘吧?对,用统计的方法,而不是因果的方法,预测未来。ok,下面我们就来看看这本书说了些啥:

 

第二十二章 预言机

在对预测机制进行剖析的时候,法默最喜欢用这个例子来进行说明:「来,接着!」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗?」,他问道。「通过预测。」

法默坚信你的脑子里有一个关于棒球是如何飞行的模型。你可以采用牛顿的经典力学算式f=ma 来预测一个高飞物体的运动轨迹,但是你的大脑本身却并没有存储这样的基本物理学算式。更确切地说,它直接依照经验数据建立起一个模型。一个棒球手,成千次观察球棒击飞棒球的情景,成千次举起戴着棒球手套的手,成千次利用戴手套的手调整他的预测。不知怎么的,他的大脑就逐渐编制出一个棒球落点的模型——一个几乎跟f=ma 不相上下的模型,只不过适用范围没有那么广而已。这个模型完全建立在过去接球过程中产生的一系列手/眼数据的基础上。在逻辑学领域中,这样的过程统称为归纳,它与导出f=ma 的推演过程截然不同。

一个棒球外野手基于经验形成的空中飞行物的「理论」,很像托勒密行星模型的后期阶段。如果我们解析外野手的「理论」的话,就会发现它是不连贯的,即兴的,复杂的,而且是近似的。但是,它也是可以发展的。这是一个紊乱的理论,但它不仅有效,而且还能提高。如果非要等到每个人都能弄明白f=ma 这个算式(况且,弄明白半个f=ma 还不如什么都不懂)再行动的话,就根本没有人能接住任何东西。就算你现在了解了这个算式,也没什么用。「你可以用f=ma 来求解飞行中的棒球问题,但你不能在外场实时解决问题。」法默说。

几乎可以明确地说,「活系统」——狮群、股票市场、进化中的种群、智能——都是不可预测的。它们所具有的那种混乱的、递归式的因果关系,各个部分之间互为因果的关系,使得系统中的任何一个部分都难以用常规的线性外推法推断未来。不过,整个系统却能够充当分布式装置,对未来做近似的推测。

而世界上绝大多数的复杂系统——包括所有的市场——都是非线性的。

在现实中,影响股票的二维图形轨迹的因素不是几个,而是数千个。

仅仅100 个变量,就可以创造出一群数量巨大无比的可能性。因为每一个变量行为都和其他99 个行为互相影响,所以如果不同时对这个相互作用的群体整体进行考察的话,你根本无法考察其中的任何一个参数。比如说,哪怕是一个简单的只有三个变量的气候模型,也会通过某种奇怪的回路连回到自己身上,从而哺育出某种混沌,让任何一种线性预测都成为不可能。

                                                                              ——摘自《失控》

 

用f=ma(公式)来预测,或者说线性预测,就是通过因果推理来进行预测,即根据球的质量、加速度等等因素,找出这个球为什么会从那个地方飞到这个地方的原因;

而“归纳”即是“统计”的意思,或者说是较粗略的统计,归纳是不问原因的,接住这个球就完了,管它是什么原因。

你想成为大数据高手,你想用统计的方法来对某些东西进行预测?(我现在来预测下你心里想的某些东西是什么。股票!噢,别夸我,我只不过是归纳了很多人的想法而已。)

好了,现在你来告诉我,还有什么理由不去好好读这本书?(当然,好心如我肯定会提醒你:拿这本书一定要拿稳了,砸脚面上可不是好玩的,因为它有一块砖头那么厚和重)

 

 

[责任编辑:范喆]
在信息大爆炸的今天,云计算、大数据成为大家津津乐道的热门名词。大数据已渗透到政务、商务、体育、医疗等等我们生活的方方面面。大数据分析,也得到大众的认可和追捧。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.