如何修炼成大数据高手?推荐你看这些书(下)

36大数据 发表于:14年06月10日 17:35 [转载] DOIT.com.cn

  • 分享:
[导读]首先声明一点,千万不要以为看了这篇文章就能成为大数据高手了,不然就不会用“修炼”这个词了,要修炼成大数据高手决不是件容易的事,可以说是非常难的一件事。要不也不会连大数据发源地——美国也不超出10个人(也许就5、6个)能达到这个层次。

高级阶段:《复杂性》

作者:[美]尼古拉斯·雷舍尔(NICHOLAS RESCHER)

翻译:吴彤

?

学完中级阶段,你接触到了一件事,“复杂性”,知道了事情复杂到一定程度,就不可能用寻找因果的方法去进行预测。

那么到底什么是复杂性,它的本质和原理是什么?想成为大数据高手,你不能对此一无所知,因为你将一辈子与复杂甚至是极其复杂的事情打交道。

如果你读完了《失控》,可能此时心理在想:尼玛,《失控》这本书已经够难读懂的了(没错,要不微信老总张小龙也不会说,能读完这本书的可以直接去他公司上班。注意他说的是“读完”,不是“读懂”),那也才是个中级,这个高级不是要把脑子都烧坏吗?(你又预测对了,和这本比起来,《失控》只能算本休闲书)那我能不看这本书吗?它和我想学的东西到底有多大关系?(你这么不听老师话,你爸妈造吗?)

为了你这不听话的学生,老师就透露些内容吧:

?

不再试图根据事物如何必须按照理论的一般原理发展去解决问题,而是根据事物如何在通常的情况下按照我们能够确定的最好情况去解决问题。与其寻求抽象必然性的一般原理,不如以某种经验主义的精神,在经验——带有它的全部特征偶然性和潜在不完备性——中寻求指引。

被称为科学规律的牛顿世界秩序(Newtonian world order)的狂热爱好者。他们的观点是牛顿、拉普拉斯(Laplace)和达尔文的相应世界观,将世界看作自然规律的有序框架。康德主义因果关系原理(Kantian principle of causality)是他们思维中的最重要部分,世界——自然世界和人类世界——被视为宇宙,每一个事物都是有序的、规律的、理智的、可解释的。实在被视为某种有条理的系统,类似于有条理的花园,排列有序且有整齐的边界。

爱因斯坦、普朗克、薛定谔(Schrodinger)及其同伴破坏了旧物理学秩序。康托尔(Cantor)、哥德尔、海丁(Heyting)等人打破了旧的数学秩序。量子力学理论造成了因果关系的崩溃。进化论现在郑重强调的不是“适者生存”,而是自然选择不得不在其基础上发挥作用的全然随机的平台。

(然而)机会和混沌的宇宙不是不守秩序的(无政府状态的),而只是复杂的,通过其自然的运转展现着更高阶规律的涌现。而当形式逻辑屈从于它的经典不变性时,一种新的非经典的、多值的(或者“模糊的”)逻辑业已诞生并取而代之。确定性(certainties)也有效地被或然性(probabilities)和似真性(plausibilities)所取代。

鉴于在复杂世界中对行动过程做出理智选择难免是困难的……如果我们是相信统计学结论的学者,用概率统计推断行为的正确性,那么事情就变得更容易处理。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ——摘自《复杂性》

?

好了,读还是不读,你自己看着办吧。

对了,推荐这本书还有个原因。大家都知道大数据是研究数据的相关性,即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究,感觉已经研究得差不多了,但又觉得要解决所有的问题还有不小的距离,这时就感到很迷茫,不知下一步的研究该往何方去,有种路越走越窄的感觉,又有一种达到顶峰的幻觉,直到看到这本书中的一句话:

“可以考虑它们的关系,再考虑这些关系中的关系,如此下去。”

当看到这句话,用醍醐灌顶已不足以形容我当时的感受,简直就是五雷轰顶。就好象原来我以为世界只有自家的一亩三分地,这句话如一道划破夜空的明亮闪电,让我突然看到了无限广袤的宇宙,为我指明了方向,并开辟出一条金光大道。(原谅我用了这么多的有点乱的形容,每当想起这句话,我就抑制不住激动的心情)现在想起来,自己那达到顶峰的幻觉是多么幼稚可笑啊,可笑还不在于我没有达到顶峰,而在于这世上本没有顶峰(挺具有佛性的一句话,不由得让我想起六祖的话:菩提本无树,明镜亦非台,本来无一物,何处惹尘埃)。

大家千万不要小看这句话中的“如此下去”几个字,他指明了一个无穷叠代,即 “关系的关系的……关系”,而智能将在这里涌现,解决复杂性问题预测的关键很可能就在这里,这句话打开了一个非常广阔的前景,将象宇宙一样没有穷尽。

看完这句话后,待心情稍稍平复,我立即把它写成一个函数:

x=f(f(a,b),f(c,d))

然后告诉自己:这就是你后半生要去全力研究的东西!

现在我们接着往下讲,还记得我一开始说过要转变世界观吗?读完这三本书,你已经做好了世界观转变的准备,现在就要来最后一击,完成这个转变!

也就是说,高级阶段你还要读一本书(尼妹,还要不要人活?我帮你说了)。你已经了解了复杂性的原理,但这个世界到底有多复杂,你可能还没有感性的认识。你一定觉得自己经历过很多非常复杂的事,比如你炒过股票、管理过几百上千人、研究过社会学问题等等,但是和这个世界真正最复杂的事比起来,这些都不过是小儿科。

也许你已经猜到了是什么方面的书,对,量子理论。鉴于这个理论实在太难、太复杂,爱因斯坦致死也没把它搞明白,科学家们现在也都还没把它搞明白,我辈就不用费神想去把它真正搞懂了,但由于我们是在探求事物的复杂性,或者也可以说研究事物的本质,那么不可不对此有所了解,因此我给大家的书是这方面的最初级的科普读物。(实在不忍心再吓你们了。?

?

高级阶段(2):量子物理史话

作者:曹天元(没错,中国人)

辽宁教育出版社

大数据书籍

你一定有疑问,“这本书就能让我改变世界观?”

那么我们就来看看书中说些什么吧:

?

量子世界的本质是“随机性”。传统观念中的严格因果关系在量子世界是不存在的,必须以一种统计性的解释来取而代之,波函数ψ就是一种统计,它的平方代表了粒子在某处出现的概率。当我们说“电子出现在x处”时,我们并不知道这个事件的“原因”是什么,它是一个完全随机的过程,没有因果关系。

因果性必须死,因为物理学需要生!

停止争论吧,上帝真的掷骰子!随机性是世界的基石,当电子出现在这里时,它是一个随机的过程,并不需要有谁给它加上难以忍受的条条框框。……而统计规律则把微观上的无法无天抹平成为宏观上的井井有条。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ——摘自《量子物理史话》

“统计规律则把微观上的无法无天抹平成为宏观上的井井有条”,这句话实际上就是表明,统计方法可以使极其复杂的随机事件成为可预测。我认为,社会、市场、股票等等与量子世界有着很多相似之处。由于量子理论实际上是从最本质上去研究我们存在于其中的这个世界,因此正如书中的一句话:

“这个世界的本质:它本就是统计性的!”

如果你用根深蒂固的唯物主义思想(认为唯心主义绝对是错的)去看量子理论,那么你可能很难理解它,而带着对唯心主义一定程度的理解(不一定非要完全赞同)去看会非常有帮助。因此,我在这里建议大家也可以了解一些佛学,比如看看净空法师说的话,这样会有助于你站在唯心主义的角度去看问题。

????? 不是幡动,也不是风动,而是心动。

佛说:极微细的心动一下,宇宙就出现,森罗万象都现前,同时我也出现了。心动,分三段,第一它动,一动就变,一转变就成能见相,有能见立刻就有所见,所见就出现。能见就是意识,意识出现后,立刻就有所见,即物质出现,故物质是幻象,你想它就现相,物质现相即宇宙,故宇宙的现前是顿现,不是进化的。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ——摘自《净空法师说华严经》

?

量子物理学家说:“意识”使得一切从量子叠加态中脱离,成为真正的现实。即第一个有意识的生物的出现才使得从创生起至那一刹那的宇宙瞬间成为现实,“意识”的参与可以在那一刻改变过去,而这个“过去”甚至包含了那个有意识的生物自身的演化历史。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?——摘自《量子物理史话》

?

感觉到量子理论有多复杂了吗?如果你对上面两段很绕的话没太看明白,我给你个精简版本:

佛说:心动,宇宙就出现,森罗万象现前,同时我也出现;

量子物理学家说:意识使一切从量子叠加态中脱离,使宇宙历史瞬间成现实,其中含有那意识生物自身。

你肯定还是觉得无法理解这些话,没关系,你只需明白一件事就行了,佛祖在两千多年前就预言了量子物理学家现在要说的话。

好了,等看完这本书,你的世界观不改变,你来找我请你吃饭。

另外,还有一本书作为参考书可以读一读(别骂我,参考书,不一定非要读),侯世达(Douglas, R. Hofstardter)的《哥德尔、艾舍尔、巴赫》(比砖头还厚,《失控》只是和砖头一样厚)。

此书的介绍:本书是在英语世界中有极高评价的科普著作。曾获得普利策文学奖。它通过对哥德尔的数理逻辑,艾舍尔的版画和巴赫的音乐三者的综合阐述,引人入胜地介绍了数理逻辑学、可计算理论、人工智能学、语言学、遗传学、音乐、绘画的理论等方面,构思精巧、含义深刻、视野广阔、富于哲学韵味。

数理逻辑学、可计算理论、人工智能学、语言学,这些对你后面要学的东西是有帮助的。

推荐这本书的另外一个原因是,《复杂性》这本书引用了它的内容。

除了《大数据时代》,推荐以上这些书还有一个共同的原因,那就是这些书的作者可以说都是预测的高手(佛祖的功力你刚才已经领教了),让人实在佩服得五体投地。

《失控》写于20年前,据说是史上唯一一本历经20年越来越好卖的书,原因就是人们发现20年前书中说的事,这些年来正在一件件地被实现,人们都在奇怪,KK他是怎么知道的。

《复杂性》也写于近20年前。

《哥德尔、艾舍尔、巴赫》写于30年前。

《量子物理史话》虽然是2008年写的,但是量子理论诞生一百多年了。

《华严经》诞生于两千多年前。

然而它们竟然对今天的大数据有如此的指导意义,我还能说什么?

《复杂性》的作者尼古拉斯·雷舍尔还有一本书(还有?!),别急,这本书你一定会很想看,因为书名干脆就叫《预测未来》。可惜,这本书没有中文版,英语好的同学可以去国外找来看看,如果你能帮我也弄一本,俺将不胜感激!

现在你已转变了世界观,具备了成为一个大数据高手的思想,可以开始学习具体方法了,即学习人工智能。

你一定在想,是不是又要读一大堆书?理论上说:是的,需要学习人工智能基础、自然语言处理、机器学习、统计学人工智能等等。不过,看你们被虐了这么久,我也动了恻隐之心,将给你们指一条捷径,就学习一本书(高兴吧?)。

?

统计自然语言处理基础

作者:[美]Christopher D. Manning [德]hinrich Schutze

翻译:苑春法 李庆中 王昀 李伟 曹德芳等

电子工业出版社

统计自然语言

你可能有一个疑问,为什么是“语言”,这有两个原因:

第一,在计算机专业,数据并不仅仅是指数字,文字、图片、声音、视频等都叫数据;

第二,语言比数字难很多,如果你能处理语言,那处理纯数字就容易很多。(可参看我的另一篇文章,“什么是真正的大数据”,https://www.36dsj.com/archives/7828)

你可能还有一个疑问,统计自然语言处理与一般的自然语言处理有什么本质不同之处?

给你讲一个有趣的事,我的一个侄儿,4岁左右,一次去机场第一次看见自动人行道,就是类似商场那种自动扶梯,只不过是放平的,人站在上面就自动往前走,他脱口就说出“平电梯”。很形象,是不是?他之所以能造出这个词,就是因为人有智能。

这里就引出一个小问题,他为什么会把“平”字放在“电梯”的前面?如果用人工智能的一般自然语言处理来解决这个问题,就会从词性、语法、句法等方面着手,中学的时候你一定学过什么偏正结构、主谓结构、动宾结构等等吧?对,经过这一翻分析和处理,找出原因并推导出结果,可能就会知道“平”字应该放在前面;

然而统计自然语言处理的路数不同,经过统计,“平”字大多数时候都是放在前面,比如平均、平等、平台、平的、平时、平坦、平常、平衡、平移、平板电脑……,好吧,那就把“平”字放在前面吧。嗯,就这么简单。

当然,这里只是打个比方,实际不会是这么简单。

但是,这又引出一个问题,我们仔细想想,那个4岁的小孩是怎么处理的,难道他懂什么语法、句法、编正结构吗?肯定不是,所以他一定是用的归纳统计的方法,无数次听到大人说到类似词时都是把平放在前面,所以他就放在前面了,他才不知道是什么原因呢,和接那个棒球是一个道理,他的大脑里并没有那个物理公式。

因此,统计自然语言处理是更接近自然的自然语言处理方式(绕口令?),也就是说更接近我们人的处理方式,甚至可以说就是人或自然的处理方式,只是人的大脑处理方式更复杂而已,但本质是一样的。

关于这一点,也有不同看法,我把不同观点也呈现给你,你可以自己去思考和判断。著名语言学家乔姆斯基就认为“儿童被假定为天生具有适用于所有人类语言的基本语法结构的知识,这种与生俱来的知识通常被称作普遍语法理论。”(摘自百度百科)

?

自然,我本人是很难苟同这种观点。这一观点也遭到相当一部份语言学家的反对,“认为在尚未对所有人类语言进行研究之前就假设所有人类语言有共同的‘底层语法’,这样做太冒进;而且在应用普遍语法研究未知语言时,不得不假设许多‘空白词类’,在研究基本语法为‘谓主宾’的语言(如爱尔兰盖尔语)时,更不得不假设这些语言的‘底层基本结构’为主谓宾,这种做法本身可能已经违反了描述性原则。也有语言学家(如Michael Evans和Stephan Levinson)主张,普遍语法是基於种族中心主义而得出的假设,而这会对认知科学造成很不良的影响。”(摘自百度百科)

读完了这本书,不代表你就成为大数据高手了,实际上它只是为你打下基础知识,真正掌握大数据的方法,需要你在这个基础上去探索或者说悟出来。

至此为止,师父领进门、修行在个人,GOOD LUCK!

我写这篇文章其实有两个原因,一个就是为想成为大数据高手的人指一条路;

另一个原因,就是想做一个反击,对反对大数据、怀疑大数据、用小数据当大数据忽悠的人进行反击。注意,我这里绝对没有反对小数据的意思,大数据并不是万能的,传统数据分析方式、抽样数据分析仍然是非常有用的,或至少在相当长的时间里是如此,我只是反对现在很多人把传统数据分析方式当作大数据方式来忽悠大众。如果把这反击浓缩成一句话,那就是:

这个世界的本质是统!计!的!?

[责任编辑:范喆]
在信息大爆炸的今天,云计算、大数据成为大家津津乐道的热门名词。大数据已渗透到政务、商务、体育、医疗等等我们生活的方方面面。大数据分析,也得到大众的认可和追捧。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.