专家分析:数据中心数据质量管理方法

51CTO.com 发表于:12年04月20日 13:15 [转载] 51CTO

  • 分享:
[导读]调查显示,信息的价值平均为企业价值的37%,这也让越来越多的企业更加重视数据中心的建设。但有许多因素会导致这些“资产”贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够。

数据是企业数据中心的重要资产,获取并维护高质量数据,对高效的IT和业务运营至关重要。面对复杂度不断增加的业务数据,如何才能全面保证数据质量?可以借助完备的Informatica数据质量平台,无论何时何地,您都可以在整个企业内访问,甄别、清洗、集成、交付可信的数据,并在第一时间找出并修正藏匿于任意位置、令您的公司动辄花费上百万的数据质量问题。

Informatica的数据管理目标

调查显示,信息的价值平均为企业价值的37%,这也让越来越多的企业更加重视数据中心的建设。但有许多因素会导致这些“资产”贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够;结构或非结构数据使整合有困难;人员变动引发的影响;数据标准不统一,相关规范不完善造成对数据理解的不充分等等。

为了充分实现数据资产的业务价值,您需要一个数据集成平台。Informatica既可以在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构解决方案,同时也可为行业提供数据质量管理、主数据管理和复杂事件处理等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个重点。

数据质量管理的整体框架

数据质量管理在数据中心建设中是一个完整的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部客户和外部一些系统的影响,同时,从应用和软件角度方面讲,数据提供者、软件开发集成、质量管控手段等也都会影响到企业数据质量的整体状况。从数据质量整体框架和方法论上讲,首先我们要了解数据现状、确定目标,然后要清楚用什么人,通过怎样的流程,采用什么样的技术来支撑和达成目标,所以,数据质量管理中,人、流程、技术三方面缺一不可。

要实现数据质量提升,还必须要做到指标的可量化,通过量化指标来实现质量可控。从技术层面讲,要从以下六个角度去考量数据质量,也称为数据质量的矩阵,包括:完备性、符合性、一致性、准确性、唯一性以及完整性。

构建数据质量处理流程

数据质量处理的流程是怎样的呢?我们把数据质量的处理分为两大部分:一是面向数据质量的分析过程,二是针对分析结果进行增强的过程。先要识别和量化数据质量,然后定义数据质量和目标,接下来就要交给相关部门设计质量提升的流程,其后就是实现质量提升的流程,并交付高质量数据给业务人员使用。同时,在整个环境中,还需要有相关的一些监控和对比来评估是否达成了目标,决定是否需要进行新一轮的数据质量提升。这是一个周而复始、螺旋上升的过程。

通过Informatica构建数据质量管理主要分为四大部分。首先是Analyze andProfiling,通过对现有数据的详细分析、描绘,来确定怎样进行处理和标准化;第二是Standardise\Cleanse,标准化和清洗更容易让计算机识别,比如数据可以通过什么样的格式进行限制和约束,那些信息可以通过数据质点或者参考数据进行相关的标准化;第三是Match,标准化后要进行相关的数据匹配,解决数据重复性问题,保证数据的唯一性;第四是Consolidate,将重复的数据进行合并,最后运用到不同的系统当中。需要注意的是,在整个过程中我们都需要进行相关的监控。

现在,很多企业的数据中心,不仅仅只是一个最单纯的面向数据仓库的数据存储中心,而是既能支持业务运营,又支持系统分析,还可进行系统间的整合。在数据中心建设中,数据质量需要从数据源端就开始进行治理,包括PowerCenter、Data Quality、MDM Hub、Informatica 9在内的Informatica的数据质量工具,可以将所有的业务逻辑和规则变成相关的一些服务,由各个业务前端、各个业务处理过程中,对数据处理服务进行调用,进行相关的数据校验验和数据清洗,保证数据产生过程中的数据质量,减少事后数据处理的难度和投入。

总的来说,数据质量管理是一个综合的治理过程,不能通过简单的技术手段得意解决,需要从企业的高度加以重视,才能为数据中心建设提供高质量的数据保证。

[责任编辑:赵航]
咸师
中国企业信息化从90年代初期开始起步,经过20年的发展,许多企业尤其是大中型企业的IT架构已经搭建完毕。但是,中国企业信息化建设有一个非常显著的特点是,IT系统建设是根据企业各个阶段的需求完成,并没有一个整体的规划。这就导致企业各个IT系统是孤立的,各个系统无法有效地连接起来。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.