存储分析 Watson对于数据存储意味着什么?

不知道从什么时候开始,我们的电视荧屏上出现了一批类型非常独特的节目–智力挑战赛。无论是那个曾经引起无数效仿的著名节目《谁将成为百万富翁》,还是我国的"砸金蛋",这类节目都吸引了众多的参与者以及数以万计的观众,而吸引他们的无疑是天价的奖金或者奖品。当然,要想在这类节目中折冠,参与者也需要有非比寻常的知识积累和情商。今天,这样的故事在美国的一档电视智力问答节目《危险边缘》上再次上演,优胜者Watson以绝对优势战胜两名对手,捧走了77147美元奖金。而他(它)的这一胜利,应该足以在科技发展史上留下一个烙印。

Watson是谁?

当然,我们这里所讲的Watson不是福尔摩斯里面的医生,也不是超市,更不是Windows里面的那个不太常被人关注的程序。

Watson是IBM所研发出来的最新的大型智能计算机,其命名源自于IBM的创始人ThomasJWatson。其主要组成为90个跑在Linux系统上的POWER 750服务器,内含2880个处理器内核、4TB的内置存储以及15TB的RAM(也有说法是16TB RAM),这些服务器设备被放在了10个机架上面。值得一提的是,其存储系统所采用的是经过特殊优化的IBM Scale-out架构NAS产品–SONAS。

在《贫民窟的百万富翁》这部电影中,男主角通过生活的历练,获取了很多鲜为人知的知识和经验,而这些"财富"使得他最终得到了大笔的金钱。而作为一部机器,Watson何以能够获得如此多的内容积累呢?这全都是依靠其所存储的多达2亿页的文档信息。依靠这些内容,Watson能够在三秒钟内从海量数据中寻找到同问题有逻辑关系的列表,并从中筛选出契合度最高的答案,按下抢答按钮。

然而,从存储的角度来讲,Watson真的是依靠海量数据检索来取胜的吗?

海量数据的本源

IBM博客作者Tony Pearson的文章中,我们能够找到一些非常有意思的东西。Pearson是这样描述Watson的数据处理过程的:"当Watson启动时,其15TB的RAM都会被装载,此后,DeepQA(IBM的智能分析软件)进程从内存载入。IBM Research表示,在实际应用的数据总量中(分析和索引数据,知识库等),用于生成候选答案和评估证据的大小在1TB以内。

当然,这并不是Watson存储的总容量,根据了解,其所挂接的IBM SONAS集群总容量为21.6TB。当然,如同上文所说,其中很大一部分都是分析和索引数据、应用以及知识库。

是的,尽管Watson似乎无所不知,不过其所依靠的基础并非我们所想象的海量数据,而只是一个1TB驱动器所能承载下的内容。

数据分析引擎,比去重更有效的精简之道?

长期以来,我们对于数据的关注范围似乎局限在了一个小圈子里,数据管理、数据精简、数据保护……然而,在这些之外呢?数据存储摆脱服务器的阴影,成为自成体系的系统是来源于对数据性能的需求;那么,海量数据的整合、排列以及分析,是否也将成为一套独立的市场?

如今,无论是惠普、IBM还是EMC,已经有越来越多的厂商开始关注数据分析方面的技术进展。Watson在竞赛中的成功至少说明了一点,数据引擎的作用是巨大的。这样一个强大的数据引擎,不仅需要有性能强劲的服务器集群、存储集群、高速网络,而且还需要开发出同最终应用范围相匹配的算法和逻辑结构。

从战胜了人类棋手的深蓝,到在智力竞赛中获胜的Watson一共历经了14年时间,在这段长时间的跨度中,企业级应用的成长并不仅仅是工艺制程、原理结构、制造原料等等,还包括着数据结构、技术协议以及逻辑算法等我们不能看到,捕捉到的信息。而这些内容,毫无疑问是由人类所创造并且改进的。从这一点上来说,Watson的最终胜利也是人类在科学技术方面的胜利。