软件在线2月27日编译 本周在美国拉斯维加斯举行的TDWI大会上有三家重量级厂商分别发布了非常重要的数据仓库产品公告。这些产品是数据库创新道路上的进步,是为了以更快,更好,更经济的数据处理来满足永无止境的需求。
本周的第一个公告来自软件巨人-微软公司,他们在TDWI大会上推出了其Fast Track Data Warehouse参考体系架构。将目前SQL Server现有的4千兆存储容量扩展为32千兆存储包,经过重新设计的数据仓库有些类似甲骨文的Optimized Warehouses和IBM公司的Balanced Configuration Units。不过在微软的计划中,这只是为微软Project Madison的推出打响的前奏,届时Project Madison将通过大规模并行处理和可扩容体系架构来引领SQL Server迈进数百千兆的时代。
那么目前市场上在售的对称多处理器应用工具如何为明年即将推出的大规模并行处理系统奠定基础呢?对此SQL Server业务的产品经理Herain Oberoi表示“如果你想迁移到多节点体系架构,你可以通过中枢辐射型体系架构(hub-and-spoke)来实现。集线器是大规模并行处理Madison配置的中心,数据通过高速数据传输能力同步辐射到不同的节点”。
换句话说,目前构建的Fast Track Warehouse今后会成为创建企业级数据仓库的Madison上向外辐射的轮辐。不过这并不是说你现在构建的只是数据中心,Oberoi认为“某些用户会把他们当做完整的数据仓库使用。当时机合适时,他们可以增加一个大规模并行处理集线器来用于扩容和额外的处理需求”。
本周发布的第二项公告来自于赛贝斯的Sybase IQ 15,这款升级版对原来版本的性能进行了改进,目前赛贝斯在以列为导向的数据库市场上以超过1500家活动用户占据无可置疑的地位。升级版主要的改进之处在于:提高了栅格环境的升级能力,改进了查询运算规则让查询执行和多节点载入都更加快速。
本周初笔者采访了Loan Performance的应用软件研发部总监Asif Rahman。Loan Performanc是赛贝斯的商业智能数据库客户,也是追踪抵押贷款执行的全球保险业巨头FirstAmerican的分支机构。(我的第一个问题是如何预防大规模的抵押贷款呆坏账,Rahman回答说公司追踪的多数贷款都是那些发明人或创始人申请的款项,而不是被房利美和联邦住房贷款抵押公司担保或者估清的贷款)。
有趣的是,Loan Performance公司最初是在微软的SQL Server上的True Standings分析产品之后使用的数据仓库,但是随着时间的推移数据量与日俱增,查询的复杂性也越来越大。Rahman介绍说“当2004年我们开始尝试时,最终用户感到很高兴,因为他们能从零开始创建报表,任意拖拽他们需要的域。但不幸的是,用户很快开始抱怨查询的速度,我们在升级数据库时的难度也越来越大”。
在考虑过甲骨文,Netezza和更大容量配置的SQL Server后,Loan Performance最终决定在2005年底转向赛贝斯的Sybase IQ,因为他们通过比较得出结论“多用途的数据库并不适用于Loan Performance”。Rahman解释说“有了Sybase IQ,我们就可以随心所欲的向分析器添加域,而无需担心这样会减缓查询的速度”。
值得注意的是SQL Server 2008引进了资源管理器特性和针对加强扩展性的压缩特性。Project Madison的大规模并行处理体系架构将进一步强化了扩展性和性能,但即使是这样,笔者也很怀疑它是否能与Sybase IQ, Vertica或者其他以列为导向的数据库产品在分析查询性能上相匹敌。当查询任务被选属性以列来储存,像甲骨文,Microsoft SQL Server和IBM DB2这种以行为导向的数据库产品就无法与之相媲美,即使有了并行处理的帮助也是如此。
Rahman表示Loan Performance使用的是测试版Sybase IQ 15,他特别欣赏这款产品的多节点编写能力和用于并行处理的扩展支持。Rahman解释说“目前我们只有一个复写器,但是现在我们有两个在用的节点,这种多节点的特性能降低我们的升级时间。就并行处理而言,IQ上一代的版本已经可以提供部分支持,IQ 15对这种支持体现的就更明显,而且不用对硬件做任何更改,我们就能看到性能提升了15%到20%”。
Loan Performance的用户直接查询True Standings数据库,根据需要测算的记录数量的不同,目前的反应时间在1秒到5分钟之间。查询性能上15%到20%的改进就意味着能满足更多高端用户的需求。
本周的第三个也是最后一个公告来自于赛贝斯的竞争对手Vertica。Vertica推出了一款在VMware虚拟机上运行的Vertica irtualized Analytic Database。这款数据仓库的售价是1千兆容量配置的起价100,000美元。
由此我们看出随着竞争的加剧,数据仓库的选择种类就更好更加多样化。数据仓库市场的发展会更加灵活和快速。