ERP数据仓库设计中的关键技术

在传统的ERP系统中,一般的核心应用都是进销存管理和账务管理,数据库中的数据也是紧紧围绕产品信息、票据和账目明细进行的。这样的数据层可以很好地实现OLTP(面向联机事务处理Online Transaction Processing,简称OLTP),但如果要为企业高层提供决策数据的话,就有必要对这样原始的、松散的、孤立的数据进行抽取、清洗、加上时间标记并进行合理的分类,以使之能够进入数据仓库并支持OLAP。

ERP数据仓库设计中的关键技术

(一)数据的装载

在数据装载到数据仓库中时首先要定义良好的数据清洗规则,保证数据的质量;其次对不同的功能要尽量做到模块化,以提高模块的重用性;再次,因为装载需要经常进行,数据可能会定期进行抽取,所有要优化装载程序,提高装载效率;最后不同的装载程序要在不同的时间运行, 因此要确定一个合理的数据抽取计划。

(二)聚合

数据从ERP系统抽取到目标数据仓库后,为了进一步提高查询系统性能,最大限度地减少查询响应时间,以便更好地服务与决策支持,在设计数据仓库时,针对不同的用户,不同的查询要求。采用聚合设计导出了大量与聚合相对应的实体化视图,存储汇总数据,大大提高了易用性。但用户的需求往往是不断变化的,不可能预先定义所有的聚合,可以采用聚合导航器建立新的聚合。一旦新的聚合建立起来,将会通知聚合管理器,并在数据库管理系统范围内的汇总或全局表中注册,使可提供给用户查询使用。

(三)数据模型

数据仓库的实现是从逻辑模型到物理模型的转换过程,数据仓库的逻辑模型主要有:星形模型和雪花模型两种。一个简单的星形模式由一个事实表和多个维表组成。设计的方法简单,容易实现,但不能表示数据的多维层次结构;而雪花形模式却弥补了星形模式的不足,对维表进行了扩展,用添加子维表的方式来表示数据的维层次,使结构清晰。在ERP系统中,很多数据集合的维具有复杂的层次结构,如时间维由属性集合(年、季、月、星期、日)构成。ERP数据仓库的第一层可以考虑采用星型模型,第二层可以考虑选择雪花模型。这样能更好地满足不同层次的用户的需要,表达数据的维层次结构。

(四)联机分析处理的数据清理和数据挖掘

由于访问ERP数据仓库的用户分布于不同的部门和组织,主要通过Internet/Intranet访问信息,因此OLAP采用三层结构模式。OLAP服务器用来对数据仓库中的数据进行多维化或预综合处理,形成多维视图,使用户能从多角度、多侧面、多层次地分析数据,为具有明确查询分析需求的用户提供高性能的决策支持。

(五)数据挖掘

数据挖掘一般都是在数据仓库的基础上进行的,从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,在做数据挖掘的时候就没有必要再清理了,而且所有的数据不一致的问题都已经被解决。这样可以提高效率,节省挖掘数据所需要的时间。由于数据仓库的数据量大,直接在数据仓库上进行挖掘,会影响挖掘的效率,因此数据的挖掘一般不在数据仓库上直接进行,而是要单独的建立数据挖掘库。