数据仓库不但容量在增长,它们支持的用户数量也比以前更多了,综合搜索的功能也越来越强,搜索所需时间越来越短。
LGR Telecommunications拥有一台310TB的甲骨文数据仓库,供其电信运营商客户的2500名用户日常使用。 这个数据仓库提供了一项名为CDRlive的LGR服务,运营商用户可以通过这项服务访问呼叫数据记录。这个数据仓库日夜不停实时更新,保持全天24小时运作。
LGR首席架构师Hannes van Rooyen称:“数据仓库不可能按批作业,每天都要新增130亿条记录,由于联机更新进程与用户查询的数量是一样的,因此它每天需要更新130亿次。”
这个数据仓库保持1PB存储容量的磁盘运转,这个容量数据在过去的四年里已经增加了十分之一。预计明年至少会增长一倍。
大部分企业仍然保留着数百TB的数据,但是它们面临着与LGR一样的数据仓库问题,即数据量暴增、用户数量增长、查询越来越复杂以及快速变化的信息等。
新一代数据仓库看起来很象LGR的数据仓库,它们都以相当快的速度保持增长,规格多种多样,支持严格的业务进程。 不管你的公司拥有250GB还是250TB的数据,你都会面临一个问题,那就是你是否拥有合适的体系结构? 它是否是合适的平台? 数据仓库的空间是否快用完了? 增加新用户的成本是多少? 如果从批量加载模式升级到持续更新模式? 技术发展日新月异,我们如何知道我们的系统是合适的系统?
要解决上述所有问题,都与管理可缩放性有关。 控制可缩放性也许意味着接受高度平行进程和Teradata与IBM等厂商的大规模体系结构,以及甲骨文和微软等厂商推出的新产品中具备的一些新功能。 它或者只要求企业更有效地管理现有数据仓库事务,包括需求条件的量化、评测其他的解决方案以及提前做好潜在问题的预防工作。