基于数据仓库的制药行业BI系统的应用研究

1、行业和学术背景
1.1 医药销售领域对决策支持的迫切需求
在日益激烈的市场竞争中,信息对企业的生存和发展起着至关重要的作用。企业数据随着时间和业务的发展不断膨胀,“知识爆炸”和“信息爆炸”成了信息社会的常用词汇。各企业建立的用来收集、存储、管理业务数据的数据库系统,在相当程度上提高了工作效率。然而,传统的数据库应用只是对数据进行简单的处理,越来越不能满足企业发展的对信息更深层次的需要。以我国医药流通行业为例,随着该行业对外开放,医药企业将面临来自美国、英国等发达国家同行的严峻挑战。为此,企业必须改变自己原有的经营模式,来面对来自各个方面的竞争和挑战。因此,必须有支撑经营模式转变的新型信息系统,为企业提供客户分析、市场分析、产品销售分析和决策分析的支撑,为提升企业的竞争力服务,为客户提供优质服务。
然而,目前大部分医药生产销售企业的信息系统,都是基于传统数据库的业务管理系统,这些系统存在着以下不足:
(1)各个业务系统能够处理的信息量有限,各部门之间能共享信息,企业决策者希望能够以多种形式、多种角度来展现和分析销售数据,但目前的业务系统对此却无能为力。
(2)各个业务系统虽然能够记录每天的业务数据,但不能给出决策者更关心的诸如下一年的销量、生产计划等预测性数据,以支持决策。
传统数据库系统不能很好地支持决策,是因为它是面向业务操作设计的,虽然能简化具体操作人员的劳动强度,但不能对这些数据所包含的内在信息进行提取。因此,同其他行业一样,在医药生产销售领域,各个企业渴望建立一种新的系统,以满足该领域对决策支持的需求。
1.2 数据仓库满足决策支持的需求
为了满足各个行业对决策支持的需求,需要用新的技术或工程化方案来弥补原有数据库系统的不足,把企业各个部门现有业务数据集成到新的系统中,以便提取有用的信息,帮助他们在业务管理和发展上做出及时、正确的判断,数据仓库技术就是因此产生的。数据仓库是计算机和数据库应用发展到一定阶段的必然产物。
如今信息处理部门的工作重点已经不限于简单的数据收集和管理。在大量生产业务数据积累的基础上,企业内部各级人员都希望能够快速、交互并方便有效地从这些大量杂乱的数据中提取有意义的信息,决策者更希望能利用现有数据指导企业决策和发掘企业竞争优势。由此可以看出,构建数据仓库的目的是建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换成集成、统一的信息。企业内部不同单位、不同角色的人员都可以在此单一的环境之下,通过运用其中的数据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多经营效益。
数据仓库也是适应决策支持系统的需要而产生的。所采用的软件产品应该能够支持决策过程的全部工作内容。完整的数据仓库是个十分庞大的系统,主要包括3个方面的内容:数据仓库技术、联机分析处理技术(OLAP)和数据挖(Data Mining)技术。
1.3 医药销售领域决策支持需求的解决方案
随着市场竞争的日益激烈,医药生产销售行业对决策支持系统的需求越来越迫切,不少医药生产销售企业包括全球制药巨头也采用数据仓库技术,纷纷建立了自己的数据仓库系统,用来支持企业的日常决策乃至战略发展决策。可以说,数据仓库系统是为了决策支持而产生的,它既然能够满足不同行业的决策支持需求,当然也能满足医药销售领域的需求。
笔者通过给一家全球知名的医药生产销售企业成功实施数据仓库系统一“医药销售数据分析系统”,可以得出结论:数据仓库技术能够成功很好地满足医药生产销售企业业务发展的需要,能够满足企业对决策支持的需求。
医药生产销售企业建立数据仓库系统是为了改善公司现有计算机应用系统现状,以满足企业内部用户对药品销售、流通情况越来越多、越来越复杂的统计、分析、预测需求。它在保持现有应用系统功能的基础上,充分利用医药企业的各种数据源,包括药品生产、销售等业务数据、财务数据、和计划数据等,对其进行面向决策的数据重组,将其转移到数据仓库中,并在该数据仓库的基础上建立面向最终用户的基于决策支持的统计分析应用系统和灵活的查询系统。通过该数据仓库系统,用户可以从各种不同的角度对药品销售计划、完成情况和收益情况进行深层次的统计和分析,使得企业对医药销售分析与预测更快捷、更准确和更科学,以帮助管理者和经营者正确决策。
1.4 数据仓库基本概念介绍
“数据仓库(Data Warehouse)”这个名词首次由号称“数据仓库之父”的william H-Inmon提出。他在《构建数据仓库》一书中指出,“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。”随着人们对数据系统研究管理和维护的不但深入,对数据仓库有如下几个特点达成了共识:数据仓库中的数据是面向主题的、集成的、不可更新的、随时间增加的,建立数据仓库的目的是为了更好地支持决策分析。
提起数据仓库技术,一定要了解一些基本概念,在此做以下简单的介绍。如果想了解更多信息,请参见关于数据仓库方面的专著。元数据(Meta Data),是关于数据的数据,类似数据库系统中的数据字典,是以概念、主题、集团或层次等形式建立的信息结构并记录数据对象的位置。
数据集市(Data Mart),也被称做“小型数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话,那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
维度(Dimension),是多维数据集的结构性特征,是事实数据表中用来描述数据分门别类的有组织的层次结构。
多维数据集(Multi-Dimensional Data Set),也叫数据立方体,是一个包含维度和度量值的等结构的数据集合,通常从数据仓库的子集构造,通过多维数据集,可实现对数据仓库中的数据进行快速访问。
OLAP,联机分析处理,对多维数据集进行快速、稳定一致和交瓦性的存取,允许管理决策人员对数据进行深入观察的技术,我们常经常听到的诸如对数据的“钻取(Drill)”和“切片(Slide)”就是OLAP通过技术实现的。根据数据存储的方式,OLAP可分为基于多为数据库的MOLAP和基于关系型数据库的ROLAP两种类型。
ETL,抽取(Extract)、转换(Transform)和装载(Load),是实现数据从业务系统向数据仓库转化的必要过程以及完成转化需要使用的工具和策略。这个过程往往根据系统定义好的元数据,根据原有业务系统和数据仓库的特点,一次性或者增量地把数据转化到数据仓库中。目前,好多数据仓库提供商提供了比较完善的ETL工具。
1.5 从数据库到数据仓库的转换
数据仓库是由数据库进化而来,是以大型数据库系统作为基础,附加在原有系统之上并存储了从企业所有业务数据库中获取的综合数据并能利用这些综合数据为用户提供处理过的有用的信息的应用系统。
原有传统型数据库提供联机业务处理功能(OLTP),主要按用户的要求对业务数据进行查询和处理。由于用户需求的不断提升,将它用于决策支持在功能和性能上都是不够的,必须进行改进和更新,数据库到数据仓库的转换是必须的。数据库到数据仓库的转换,除了指系统功能的转换之外,还包括数据的抽取和转换。数据的转换有时会很复杂,为了提高数据转换的效率和性能,往往在数据仓库和业务系统之间增加一个中间数据库(Staging Tables),用以临时存储从业务系统中导出的数据,然后再根据导入策略定时或一次性将数据导入到数据仓库中。
1.6 数据仓库的体系化环境和数据组织
传统的数据库技术是以单一的数据资源为中心,进行业务处理、批处理等工作。而数据仓库技术具有分析处理等特点,它既是一种结构和富有哲理性的方法,也是一种技术,也是存储数据的一种形式。数据仓库弥补了传统操作型数据库以单一的数据资源为中心的缺点,发展出了一种新的体系化环境。
辉瑞制药公司数据仓库解决方案
辉瑞公司是目前全球名列前茅的医药和保健品生产销售企业。该公司的产品行销全球150多个国家和地区。根据2011年福布斯全球200强企业统计表名,2011年辉瑞的全球总销售额突破600亿美元,利润150亿美元。
这样一个遍布全球的药品生产和销售企业,每天产生的生产和销售数据的数量巨大可想而知。同时,由于这些数据散布在不同区域中功能各异的业务系统中,数据分散,不利于统计和数据共享,因此,如果没有集成的数据仓库管理统一管理,很难从业务数据中发现能供决策分析使用的数据。
为了解决上述问题,早在1996年,辉瑞就开始着手实施数据仓库。当时,辉瑞建立数据仓库的总体目标是:
实现药品生产、流通环节的数据分析、挖掘和知识发现。数据仓库不仅要存储药品生产和销售数据,同时还要存储与制药相关的诸如生物、政策上的以及仓储方面的信息。
为了达到以上目标,辉瑞制药公司建立数据仓库、集成异构数据时必须要解决以下问题:
先要建立一个或几个区域性的中央数据仓库系统,也称基础数据仓库。由于辉瑞公司业务遍布全球,不适合建立大集中式的、统一的中央数据仓库,否则非常难以实施。
依据区域性数据仓库,要建立统一、标准的数据视图,以保证不同区域数据分析的角度和层次是一致的。
依据区域性数据仓库,要建立一个辉瑞和第三方数据抽取的知识库。
数据仓库建设的重点应放在数据集成的方案上,并非前端的展现工具。
在数据的使用上,集成的数据应该更容易获取、比较、交换和操纵。
1996年,全球知名数据库(数据仓库)提供商ORACLE公司根据辉瑞公司的业务运行特点和数据整合的需求,为其提供了一个完整的数据仓库解决方案,简单介绍如下:
辉瑞制药公司不仅要集成本公司内部的生产、销售数据,而且还要继承与行业相关的外部数据。因此,在数据仓库建设过程中,必须考虑内部数据与外部数据的融合。
辉瑞数据仓库的体系ETL层抽取来自辉瑞内部、外部以及第三方的数据。将数据暂存在在临时数据库(Staging Tables)中。然后再进入中央数据仓库中。根据数据使用者的需求,数据仓库里的数据经过整理进入不同的数据集市(Data Mart)中,以便通过OLAP工具展现出来。与此类似,我国的西安杨森公司也使用了国内一家IT公司为其开发的基于OLAP的销售数据分析系统,致力于此方面研究和利用,这里不再祥述。
经过以上介绍,我们可以知道,大多数医药公司已经或正在建设自己的销售分析系统。使用的技术也是多种多样。有的企业建立在大型中央数据仓库之上,有的直接利用关系数据库系统加上BI工具。有的则找专业IT公司为自己开发。每种方案都有各自的优势,也有各自的缺点。建立一套数据分析系统,除了满足企业的功能需求外,还要考虑公司的资源投入、信息化策略等问题,结合BI前端OLAP展现工具,很好地将业务数据整合到数据仓库中,并根据数据分析的需要,通过定制数据立方体,以丰富的表现形式展现分析数据。系统除了满足企业对销售数据分析的功能需求外,还满足了公司信息化整体策略和风格。