浅谈分布式数据库的数据存储优势和问题

一 分布式数据库系统概述

分布式数据库系统是在集中式数据库系统的基础上发展起来的,是计算机技术和网络技术结合的产物。分布式数据库系统适合于单位分散的部门,允许各个部门将其常用的数据存储在本地,实施就地存放本地使用,从而提高响应速度,降低通信费用。基于网络基础上的分布式数据库系统经常对数据库进行数据分片。从数据意义上讲,数据分布的合理与否不仅影响着访问的局部性,而且也制约着数据查询及事务处理的效率。

在分布式数据库中,数据存储包括数据分片和数据分配两个部分。数据分片和分布是分布式数据库中两个重要慨念,分布式数据库大部分问题均与数据分片和分布有关,它们对整个系统的可用性、可靠性、及效率都有极大的影响,同时也与分布式数据库系统的其他方面密切相关,尤其是分布式查询处理问题。以关系数据库为例,在关系型分布式数据库系统(RDDB)中,数据分片是从逻辑上将全局关系划分为逻辑片断即子关系,而数据分配就是再以一定的冗余度将子关系分配到多个结点上,数据存储即数据分片与数据分配的总和。数据分片是一种对关系的划分,在集中式数据库中可以将所有的表视为一个总全局表的逻辑子表,而总全局表是这些子表的并集,其属性包括这些子表的所有属性,元组包括这些子表的所有元组,对应的在这个总全局表上元组的非空值呈块状区域分布。数据分配则是将这些子表以不同的冗余度存放在一个或多个场地或节点,这两者间的区别在于集中式数据库不存在数据复制的问题,不需要存在多副本,但也会出现表名不同。但表属性和属性值完全相同。

二 分布式数据库的设计

如何在不同的计算机上分布文献资料的数据和程序才能提高系统效率,增加系统的可靠性和可用性。这是我们面临的重要问题。为了增加系统的可靠性。系统就必须使数据重复,也就是系统应保持几个相同的副本,每个副本放在不同的结点内形成数据重复,数据重复不但可以增加系统的坚定性,还可以提高系统的并行性。借助于多个副本,几个结点可以并行地处理有关查询。然而,系统存在着多副本就必须要保证全部副本的一致性结果会增加系统的总开销。因此,我们必须认真考虑文献资料数据资源共享的合理分布。

而在分布式数据库中,由于数据的分布和冗余,使得查询处理中需要考虑站点间传输数据的通信费用,所以除了考虑CPU代价和IO代价之外。还应该包括数据在网络上的传输代价。即总代价=CPU代价+IO代价+通信代价。因此,分布式数据库进行分布式设计时,一个重要原则是使数据和应用程序实现最大程度的本地性,这样就可以使应用数据尽可能地本地化,以减少通信开支。对于建立在各场所的分布式数据库,不需要过分进行限制,但也必须要有规范的设计要求。

(1)硬件规范,必须支持局域网乃至Internet的包括声音,文字,图像的交流,支持IE或Netscape浏览web界面,支持开放性数据源的建立。

(2)数据库形式规范,原则上Access、Paradox,甚至文本文件都可以进行数据传输,但必须保证自己有开放式数据源的特征及关系继承的特征。

(3)域的统一和分类、分科的统一,数据库在各个分布场所必须有统一的域结构,以确保给用户提供完整统一的视图,科目分类的命名必须要求规范,以确保查询和统计工作的准确性,在方便工作的条件下,可以不要求唯一确定的主关键字。

三 传统数据库存在的问题

随着计算机技术的发展和应用的深入,分布式技术在构建企业级应用程序中更为广泛流行。是因为分布式数据库存储方式给企业带来了很多的方便以及好处。在没兴起分布式浪潮之前,由于传统的数据存储方式过于简单化,过于集中管理而造成了大量数据的堆积。这样一来一个公司或企业要使用大量的数据就需要大量的存储数据的介质,而导致服务器的回应下降乃至崩溃,这样一来就会有大量数据会随着服务器的崩溃而丢失,而数据对于大型企业来说数据量会很大,数据的丢失,没有了数据的对照会使企业的业绩亏损,更严重的说也可能导致企业倒闭。这种方式存储还不能解决的问题就是异地的存储,有的企业会有很多的分公司,这样一来就传统的数据存储就会带来大量人力、资金的浪费。这些问题的存在也促进了分布式数据库的发展。

四 剖析分布式数据库存储的优势

分布式数据库顾名思义,具有分布数据的功能,实际上它的数据存储方式是物理上是分布的,逻辑上是集中的。也就是说分布式数据就是指数据和程序可以不位于一个服务器上,而是分散到多个服务器,以网络上分散分布的地理信息数据及受其影响的数据库操作为研究对象的一种理论计算模型。而分布式数据库数据存储是在不同地域或者不同网络之间的存储,进而达到数据共享,数据交换的目的。分布式数据存储是先经过一个“钝化”,然后“序列化”成文件从内存中的一端传到网络的另一端,到另一端后在激活的一系列过程,详细的说数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。这就是它的存储过程。

五 总结分布式数据库存储的优势

分布式数据的优势也正体现在这“分布”这两个字,让操作终端的人感觉不到数据库的分散,当然这也需要好的网络的努持。使使用者感觉是在本地数据库操作一样。这样既方便又快捷,使维护起来不用操作大量的数据。它综合了计算机(Computer)、通讯(Communication)、显示(CRT)和控制(Control)等4项技术,其基本思想是分散控制,集中操作、分级管理、配置灵活、高可靠性,易于维护等基本特点,从而实现了异地存储的实现。