当我们在地铁上习惯性地拿起手机发几条微博的时候,当我们被一张又一张的美图迷乱了眼球的时候,当各式各样的网络拍客忙得热火朝天的时候……一个叫做"大数据(Big Data)"的名词不经意间在IT界走红,"大数据"的时代正在朝我们走来。
"大数据"时代走来
所谓的"大数据"有两个方面的内涵–海量和非结构化。这并非一个很突然的变化,更不是一个很新鲜的趋势,那它究竟意味着什么?答案是–机遇。一方面,对于企业是一种机遇。企业可以基于现有的大量的数据、海量数据进行分析,并利用这些数据产生效益。另一方面,对一些特定领域的发展来说也是机遇。如医疗等领域,有着大量的文献、化验结果、病例等等,这些信息大部分以人类语言方式记录下来,通过对这些信息的挖掘,可以辅助医生作出正确的决策。
当然,机遇与挑战并存,"大数据"对于企业来说也是如此。在谈Watson如何帮助企业应战"大数据"时代之前,首先需要了解"大数据"对于企业来说究竟意味着怎样严峻的挑战。
"大数据"时代企业面临着三大严峻现实
现实之一:海量
IDC最新数字宇宙研究报告表明,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
现实之二:非结构化
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
据统计,企业中20%的数据是结构化的,80%是非结构化或半结构化的。当今世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。
现实之三:实时处理
一项对全球CIO调查得出的结论表明:"通过对企业界搜集的大量数据进行实时分析,并从中获得启示,进而将这些启示转化为自身的竞争优势,对当今企业来说至关重要。"
某证券公司的CIO在介绍公司对于数据实时处理的需求时曾经表示,上亿条数据的分析要在5秒钟内完成。
作为IBM"智慧的运算"理念的重要支柱,Watson以其海量数据实时分析、负载优化系统方面的能力征服了全世界,下面将进一步分析Waston将有哪些法宝来助力企业应对"大数据"的挑战,抓住大数据的机遇。
法宝之一:超强的自然语言理解能力。对于那些广泛使用分析应用的企业用户来说很重要这这一点很重要,过去,那些企业用户往往会被这类应用的复杂的接口所吓倒。Watson证明了通过自然语言与计算机的互交不再是科幻小说和好莱坞电影里的情节,其超强的自然语言理解技术完全可以根据自然语言上下文的内容和语境来准确理解词义。
法宝之二:非结构化数据的处理。Watson是根据一些文本形式知识库来回答问题,这样的文本库是非结构化的信息,而不是基于结构化的知识库,这样的知识库可以使用知识表示语言(如CYC)来表示。在这一方面,Watson与Wolfram|Alpha等其他的问答系统有很大的不同。
法宝之三:快速、高效地处理非结构化数据。尽管Waston在《危险边缘》节目中所分析的数据集相对于"大数据"的标准来说微不足道,但是,能够快速、高效地对非结构化数据进行分析是许多大数据分析情况中非常具有代表性的需求。很多时候,你不能确定需要对何种数据进行分析,不知道数据从哪里来,每一个数据集将会有多大,它是否干净,甚至不知道必须要在多久之内提供一个答案。
法宝之四:基于文本的预测和分析算法。Waston目前使用了大量的预测模型来分析大数据,并且实时地得出结论。这是十分重要的一点,因为这为大数据的分析提供了另外一种很重要的方法。它与传统的Hadoop/MapReduce实现方式不同,不是一个单一的分析算法然后用MapReduce来适应一个大的数据集,而是使用了一些不同的预测和评估的算法。这些算法其中可能有一些是并行的,可以最大程度地发挥MapReduce的优势。这些基于文本的算法的应用对于IBM来说十分重要,因为它大部分的客户都面临着这样的数据(文本数据)。
当然,在比赛中,沃森分析的数据都是比较干净的,现实生产中的"大数据"很少有这样干净的数据,IBM还需要用更加嘈杂的数据以及视频和音频数据来测试系统的性能。Watson未来将针对不同的行业应用推出负载优化的解决方案,如医疗、金融、呼叫中心等,届时IBM Watson将会真正成为"大数据"时代的英雄。