数据处理多面手 IBM推介System S数据流项目

服务器在线4月14日报道 人们通常是将无用数据过滤得出的信息和背景联系起来做出自己的决定,但这种信息的产生或者与业务流程的快速结合并非易事。互联网的出现和各种形式的媒介令数据转化为信息的任务更加复杂,政府人员喜欢将其称之为"可控告智能",将各种文本,视频和音频流与数据库及其他数据仓库混合在一起是一个巨大的挑战。

这也是为什么IBM Research的技术专家要花费6年之久来研究这个System S项目。这种流计算系统是在IBM公司蓝色基因大规模并行超级计算机上运行的,但是它安装的不是超级计算机用于气候或者金融建模的应用软件,而是非常不同的软件。

IBM公司是在2007年6月开始公开介绍System S。本周IBM宣布Toronto Dominion Bank的投资银行分部TD Securities采用了System S机型的首个模型,它所运行是被蓝色巨人称之为InfoSphere Streams的应用软件。

诞生于美国纽约Hawthorne市T.J. Watson研究中心的流软件的设计用途不仅是用于处理数据的复杂查询,而且还要应对数据库中存储的更加杂乱无章的域。但是就像流这个名字所暗示的,它也意味着数据要随着实时的变化持续更新。

像IBM公司在白皮书中解释的那样,在正常的信息系统中,用户向相对静态的数据库中问一系列的问题,用户可以得到做出决定的数据。在流系统中,来自不同来源的大量原始信息都流向系统,InfoSphere Streams软件能保留用户查询的数据库,对提供给决策者的数据进行持续更新。

在系统中,用户要求数据库列出所有家住在离城市中心100里之内并姓"史密斯"的人员,一旦你问出这个问题,系统就会从政府数据库,网络流量,电子邮件,GPS数据,传感器,视频信息,音频信息中查询所有符合需求的信息,系统会告诉你在原始查询中的姓"史密斯"都是围绕100里以内的范围进行实时查询的(假设有个史密斯离开,又有新史密斯到来)。

从个人角度来看,笔者无法想象为什么有人需要这样的信息,但是当你像个少年冒出怪诞的想法或者使用手机发送文本信息时,请记得System S。

总之,System S不只是监控这么简单,如果是这样TD Bank也不会对它感兴趣。但是同样的InfoSphere Streams软件可以被用来处理大量的新闻资料,金融信息数据库和其他数据源信息来对股票交易做出决策。TD Securities表示事实上采用System S,他们设置了一种前端操控的期货预购买卖交易系统,处理信息的数量比之前银行证券交易专家沿用的系统要多了21倍(不幸的是,这并不意味这使用这些数据的人们因此聪明了21倍)。

根据金融信息论坛的说法,全球由保险业和期货预购买卖系统产生的数据量自从2003年以来每年都是翻倍增长,TD Securities采用蓝色巨人的System S建模是因为他们希望能建立一种可以应对从现在到未来2到3年内增长的数据流。IBM公司在蓝色基因/p超级计算机上安装了InfoSphere Streams软件,这也给了TD Securities大量的可扩展空间。也就是说,IBM公司认为软件能在任何50到500台服务器节点上工作表现良好,能够在蓝色基因/p上进行研究,测试和产出。

蓝色基因/p在一个处理器卡上放置了4个850MHz的单核PowerPC 450芯片,通过对称多处理进行连接,这样他们就能共享DDR2主存的2GB容量。单机架有1024个四核处理器节点,如果你运行模拟测试,这台超级计算机的处理性能大约可以达到13.9万亿次。

建立在System S上的原型期货预购买卖系统每秒可以进行500次期权评估,是此类交易记录的20倍。因此System S处理数据和期货预购买卖的速度要快了20倍之多。每毫秒就能处理数百万美元的交易,因此很难想象IBM公司会受到多少金融服务企业的追捧。

安装在TD Securities公司内的原型System S运行的是红帽公司为PowerPC新片研发的的Fedora 8 Linux操作系统,它也可以支持蓝色基因超级计算机和软件。坦率的说,蓝色基因/p超级计算机不能支持InfoSphere Streams软件,不过只要你有钱,IBM就能提供支持。