本文作者艾伦•麦克马洪供职于戴尔。他曾在过去13年参与了戴尔的一系列企业解决方案产品的设计,包括服务器、存储设备、以及虚拟化。其研发总部位于爱尔兰。
每家企业都存储有大量的数据。某些数据可能不那么有用,但是,即使如此,您也没有大量的时间和精力来访问和排查这些数据。这便是创建一套有效的数据仓库策略的意义所在了。
相反,一些企业可能仍然认为,有效的数据仓库解决方案的成本不必太过昂贵。而且他们也不需要太复杂的数据仓库解决方案或希望该解决方案仅限于某一个单一的规模和范围。
那些不再起作用的方案
昔日所谓的高科技领域里所采用的那些方案,甚至直到去年某些企业都还在尝试使用着如下两种比较常用的数据仓库方案。
一种是依赖于外部资源聚集成一个系统。这样的系统可以包含任意数量和类型的服务器、存储阵列和软件。合并后,企业希望这样的集合将作为一种有效的数据仓库解决方案,虽然这已经越来越不可能了。不同的单位聚集在一起可能会创造一个越来越复杂的系统,很难以有效的方式监控、跟踪或管理。
自己动手的方法也陷入了困境,由于企业内部资源有限,全身心地投入到创建和管理一个有效的仓储系统的运行亦陷入困境。IT资源不可能是足够多或其可用性无法随时获得,也就无法重点实施或管理一个庞大的仓储系统。
另一种老派的数据仓库方法是基于专有技术的系统。虽然这种类型的系统可以提供相关的功能和技术,以满足许多企业的需求,但其成本通常很高。履行合同的要求,以确保该系统将不断优化和维护的费用是昂贵的。而为了达到的专有系统的要求,也可以经常导致了许多中小型企业的过度配置。规模较小的企业不一定需要这样一套规模广泛的系统,但由于相信这是唯一可用的选项,也就只要被迫为其付出高昂的成本代价。
以前的数据仓库解决方案的缺点在于成本高、效率低,并且无法简单的针对企业所存储的任何的数据提供相关的借鉴意义。
你可以部署一套更有效的系统
非但没有大量的无组织的和不可访问的数据,一套有效的数据仓库战略允许你轻松快速地访问数据。回顾不同类型的数据,使您能够跟踪过去和当前的发展趋势,并预测未来的发展趋势和问题,进而帮助您的企业产生有意义的商业智能报告。
大量的以低效的方式存储的数据大大降低了系统的性能。随着数据量的增加,连最简单的日常操作负荷也需要耗费大量的时间。几个查询试图找到一个特定的项目,作为系统试图通过筛选现有的数据或程序,并可能导致进一步延迟。这些时间滞后,不仅影响员工的生产力,同时如果发生停机或流量瓶颈,也可能影响企业作为一个整体。
广泛和不断扩大的数据集是当今企业面临的一大挑战。内部和外部源不断地以各种不同的格式和复杂程度增加更多的数据组合。重复和冗余的数据众多,也没有任何实际用途。
联机分析处理(或称OLAP),可以非常方便的从不同的数据库数据挖掘应用,但其在一个系统上的极端的工作量,可能不适合设计用来处理任何复杂的或大的工作量。
有效的数据仓库也可以消除过时的数据存储系统,处理那些早已没有任何用处,或者释放其它设备中太旧而无法执行附加功能的数据。
如何寻找一种高效的数据仓库系统
选择一个数据仓库策略时,容量和性能审查是两大重要因素。该框架应当能够支撑和平衡组成该系统的硬件和软件,包含今天的企业所需要的重要功能。这些措施包括:
能够处理大量的顺序扫描
能与OLAP系统兼容
配置实现下一代服务器和存储阵列
快速安装对于日常营运及业务系统的影响微乎其微
具备可扩展性,以满足业务需求,而无需过度配置
在业务增长的道路上,能够具有成本效益的增加规模
成本效益适合不同的价格点和预算
可升级和更新的技术
可用性大小的选项是必须的,以保持高处理速度和低成本。小型、中型和大型数据仓库的选项,以满足特定的业务需求。例如,中小型企业,利用一个5 TerraByte(TB)的平台,组成一个单一的服务器内部存储就很好。稍微大一点的企业可能需要一个较大的服务器和网络存储阵列,使用10 TB平台能够建立一个有效的战略。而规模最大的企业,可能要小于20 TB的平台,以及一台大型的服务器和基于光纤通道存储阵列,以便他们可以处理大量的负荷。