分布式数据库总结申德荣.docx

资源描述

分布式数据库总结申德荣.docx

《分布式数据库总结申德荣.docx》由会员分享，可在线阅读，更多相关《分布式数据库总结申德荣.docx（12页珍藏版）》请在冰豆网上搜索。

分布式数据库总结申德荣.docx

分布式数据库总结申德荣

分布式数据库总结（申德荣）

第一章分布式数据库系统概述

一、分布式数据库的进展

1、分布式数据库的进展：

①集中式数据库管理系统的局限性：

a.通讯瓶颈；b.响应速度。

②推动分布式数据库进展的动力：

a.应用需求；b.硬件环境的进展。

二、分布式数据库系统的定义：

分布式数据库系统，通俗地说，是物理上分散而规律上集中的数据库系统。

分布式数据库系统使用计算机网络将地理位置分散而管理和把握又需要不同程度集中的多个规律单位（通常是集中是数据库系统）连接起来，共同组成一个统一的数据库系统。

三、分布式数据库系统的特点：

a.物理分布性：

数据不是存放在一个站点上

b.规律全体性：

是与分散式数据库系统的区分

c.站点自治性：

是与多处理机系统的区分

d.数据分布透亮性

e.集中与自治相结合的把握机制

f.存在适当的数据冗余度

g.事务管理的分布性

四、分布式数据库系统的分类

按局部数据库管理系统的数据模型分类：

同构性（homogeneous）（分为同构同质型和同构异质型）DDBS和异构性（heterogeneous）DDBS

按分布式数据库系统的全局把握系统类型分类：

全局把握集中型DDBS，全局把握分散型DDBS，全局把握可变型DDBS。

五、分布式数据库中数据的独立性和分布透亮性

所谓数据独立性是指用户或用户程序使用分布式数据库犹如使用集中式数据库那样，不必关怀全局数据的分布情况，包括全局数据的规律分片情况、规律片段站点位置的安排情况，以及各站点上数据库的数据模型等。

也就是说，全局数据的规律分片、片段的物理位置安排，各站点数据库的数据模型等情况对用户和用户程序透亮。

所以，在分布式数据库中分布独立性也称为分布透亮性。

六、分布式数据库系统的体系结构、组成成分

集中式数据库管理系统结构：

a.DB（数据库）

b.DBMS（集中式数据库管理系统）

c.DBA（数据库管理员）

分布式数据库管理系统（DDBMS）结构：

a.LDB（局部数据库）

b.GDB（全局数据库）

c.LDBMS（局部数据库管理系统）

d.GDBMS（全局数据库管理系统）

e.LDBA（局部数据库管理员）

f.GDBA（全局数据库管理员）

七、分布式数据库系统的特性：

1.数据透亮性：

a.分布透亮性b.分片透亮性c.复制透亮性

2.场地自治性：

a.设计自治性b.通信自治性c.执行自治性

八、分布式数据库系统的优点:

分布式数据库系统是在集中式数据库系统的基础上进展来的，比较分布式数据库系统与集中式数据库系统，可以发觉分布是数据库系统具有下列优点：

1.更适合分布式的管理与把握。

分布式数据库系统的结构更适合具有地理分布特性的组织或机构使用，允许分布在不同区域、不同级别的各个部门对其本身的数据实行局部把握。

例如：

实现全局数据在本地录入、查询、维护，这时由于计算机资源靠近用户，可以降低通信代价，提高响应速度，而涉及其他场地数据库中的数据只是少量的，从而可以大大削减网络上的信息传输量；同时，局部数据的平安性也可以做得更好。

2.具有机警的体系结构。

集中式数据库系统强调的是集中式把握，物理数据库是存放在一个场地上的，由一个DBMS集中管理。

多个用户只可以通过近程或近程终端在多用户操作系统支持下运转该DBMS来共享集中是数据库中的数据。

而分布式数据库系统的场地局部DBMS的自治性，使得大部分的局部事务管理和把握都能就地处理，只要在涉及其他场地的数据时才需要通过网络作为全局事务来管理。

分布式DBMS可以设计成具有不同程度的自治性，从具有充分的场地自治到几乎是完全集中式的把握。

3.系统经济，牢靠性高，可用性好。

与一个大型计算机支持一个大型的集中式数据库在加一些进程和近程终端相比，由超级微型计算机或超级小型计算机支持的分布式数据库系统往往具有更高的性价比和实施机警性。

分布式系统比集中式系统具有更高的牢靠性和更好的可用性。

如由于数据分布在多个场地并有很多复制数据，在个别场地或个别通信链路发生毛病时，不致于导致整个系统的崩溃，而且系统的局部毛病不会引起全局失控。

4.在肯定条件下响应速度加快。

假如存取的数据在本地数据库中，那末就可以由用户所在的计算机来执行，速度就快。

5.可扩展性好，易于集成现有系统，也易于扩充。

对于一个企业或组织，可以接受分布式数据库技术在以建立的若干数据库的基础上开发全局应用，对原有的局部数据库系统作某些改动，构成一个分布式系统。

这比重建一个大型数据库系统要简约，既省时间，又省财力、物力。

也可以通过添加场地数的方法，快速扩充已有的分布式数据库系统。

九、分布式数据库系统的缺点:

1.通信开销较大，毛病率高。

例如，在网络通信传输速度不高时，系统的响应速度慢，与通信县官的因素往往导致系统毛病，同时系统本身的简单性也简约导致较高的毛病率。

当毛病发生后系统恢复也比较简单，牢靠性有待提高。

2.数据的存取结构简单。

一般来说，在分布时数据库中存取数据，比在集中时数据库中存取数据更简单，开销更大。

3.数据的平安性和保密性较难把握。

在具有高度场地自治的分布时数据库中，不同场地的局部数据库管理员可以接受不同的平安措施，但是无法保证全局数据都

是平安的。

平安性问题式分布式系统固有的问题。

由于分布式系统式通过通信网络来实现分布把握的，而通信网络本身却在爱护数据的平安性和保密性方面存在弱点，数据很简约被窃取。

4.分布式数据库的设计、场地划分及数据在不同场地的安排比较简单。

数据的划分及安排对系统的功能、响应速度及可用性等具有极大的影响。

不同场地的通信速度与局部数据库系统的存取部件的存取速度相比，是格外慢的。

通信系统有较高的延迟，在CPU上处理通信信息的代价很高。

分布式数据库系统中要留意处理分布式数据库的设计、查询处理和优化、事务管理及并发把握和名目管理等问题。

其次章分布式数据库系统的结构

通常从三种不同的角度来描述一个系统的体系结构，分别为基于层次结构、基于组件结构和基于数据模型结构的描述方法。

基于层次结构的描述方法是依据系统不同层次的功能描述系统的构成。

基于组件结构的描述方法是定义系统的构成组件及组件间的关系。

基于数据模式结构的描述方法是定义不同的数据类别结构及其相互关系，定义不同的视图供应应相应的组件应用。

一、分布式数据库系统的物理结构和规律结构

分布式数据库的物理结构

二、DDBS的体系结构

系统的体系结构（Architecture）指按组件、组件功能以及它们的交互作用定义系统的结构（Structure）

DDBS的组件结构

1.应用处理器（AP）功能：

a.用户接口：

检查用户身份，接受用户命令，如：

SQL命令。

b.语义数据把握器：

视图管理、平安把握、语义完整性把握（全局概念模式）。

这些约束定义在字典中。

c.全局查询处理器:

将用户命令翻译成数据库命令；生成全局查询的分布执行方案；收集局部执行结果并前往给用户。

d.全局执行监控器（全局事务管理器）:

调度协调和监视AP和DP之间的分布执行；保证复制数据的全都性；保证全局事务的原子性。

2.DP功能

a.局部查询处理：

实现全局命令到局部命令的转换；访问路径选择器，选择最好的路径执行。

b.局部恢复管理器：

维护本地数据库全都性的毛病恢复。

c.运转支持处理器（存储管理器）：

按调度命令访问数据库；把握数据库缓存管理器；前往局部执行结果；保证子事务执行的正确性。

d.局部事务管理器：

以局部子事务为单位调度执行，保证子事务执行的正确性。

e.局部调度管理器：

担任局部场地上的并发把握，按可串行化调度和执行数据操作。

三、模式结构

我国分布式数据库系统标准草案中给定的笼统为四层的模式结构：

全局外层、全局概念层、局部概念层和局部内层。

模式与模式之间是映射关系。

1.全局模式或外模式（ES）:

全局外模式即全局用户视图，是分布式数据库的全局用户对分布式数据库的最高层笼统。

全局用户使用视图时，不必关怀数据的分片

和具体的物理安排细节。

2.全局概念模式（GCS）:

全局概念模式即全局概念视图，是分布式数据库的全体笼统，包含了全部数据特性和规律结构。

像集中式数据库中的概念模式一样，是对数据库全体的描述。

全局概念模式再经过分片模式和安排模式映射到局部模式。

3.分片模式是描述全局数据的规律划分视图。

即全局数据规律结构依据某种条件的划分，将全局数据规律结构划分为局部数据规律结构。

每一个规律划分成一个分片。

在关系数据库中，一个关系中的一个子关系称该关系的一个片段。

4.安排模式是描述局部数据规律的局部物理结构，即划分后的分片的物理安排视图。

5.局部概念视图（LCS）：

局部概念模式为局部概念视图，是全局概念模式的子集。

局部概念模式用于描述局部场地上的局部数据规律结构。

当全局数据模型与局部数据模型不同时，还涉及数据模型转换等内容。

6.局部内模式定义局部物理视图，是对物理数据库的描述，类似集中数据库的内层。

7.分布式数据库的四层结构及模式定义描述了分布式数据库是一组用网络联合的局部数据库的规律集合。

它将数据库分为全局数据库和局部数据库。

全局数据库到局部数据库由映射（1：

N）模式描述。

全局数据库是虚拟的，由全局概念层描述。

局部数据库是全局数据库的内层，由局部概念层和局部内层描述。

全局用户只关怀全局外层定义的数据库用户视图，其内部数据模型的转换、场地安排节等由系统自动实现。

四、DDB和数据库集成系统

通常，分布式数据库系统是自上而下（top-down）地设计数据库，可机警地进行分片和安排设计。

用户可得益于其“集中把握”和数据库系统具有的数据处理力量。

但分布式数据库系统具有数据库组件数量的限制，通常不多于数十个数据库组件。

数据集成系统通过约束数据管理力量（只支持只读），可将数据库组件数量扩展到数百个。

在数据集成系统中，通常数据和数据库已存在，是遵照自下而上（bottom-up）地集成各局部场地上的数据。

多数据库系统（MDB）

MDBS是在己经存在的数据库系统（称为局部数据库系统:

LDBs）之上为用户供应一个统一的存取数据的环境。

P2P数据库系统（P2PDBS）

对等型模型（又称P2P模型）是一种新型的体系结构模型，面对大范围的多数据资源点的松散耦合。

特点：

a.每个点均可贡献数据，系统资源具有丰富性、多样性；

b.可直接访问数据源中的数据资源，即时得到最新颖的数据，不同于如数据仓库等集中的数据资源仓；

c.接受自组织准绳，具有健壮性；

d.每个点可随时加入和退出，系统具有分散性、可扩展性；

e.以Web上的资源为Peer点，系统部署简约，不需要简单的框架部署实现。

五、分布式数据库系统分类

分布式数据库系统的分类很多。

为全面、系统地对分布式数据库系统进行分类，接受分布式数据库的三个特性（分布性、异构性、自治性）组成的三维空间图来描述分布式数据库的类型。

三个基本特性：

1.分布性是指系统的各组成单元能否位于同一场地上。

分布式数据库系统是物理上分散、规律上统一的系统，即具有分布性。

而集中式数据库系统集中在一个场地上，所以不具有分布性。

2.异构性是指系统的各组成单元能否相同，不同为异构，相同为同构。

异构次要:

a.数据异构性：

指数据在格式上、语法和语义上存在不同。

b.数据系统异构性：

指各个场地上的局部数据库系统能否相同。

如：

均接受ORACLE数据库系统的同构数据系统。

或某些场地接受SYBASE数据库系统，某些场地接受INFORMIX系统的异构数据库系统。

c.平台异构性：

指计算机系统能否相同。

如：

均为微机系统组成的平台同构系统或由VAX或ALPHA系统等异构平台组成的系统。

3.自治性是指每个场地的独立自主力量。

自治性通常由设计自治性、通讯自治性

和执行自治性三方面来描述。

依据系统的自治性，可分为集中式系统、联邦式系统（FederatedDB）和多数据库系统（MultiDB）。

a.集中式系统即为传统的数据库系统。

b.联邦式系统：

实现需要交互的全部数据库对之间的一对一连接。

c.多数据库系统：

是指若干相关数据库的集合。

各个数据库可以存在同一场地，也可分布多个场地。

对多数据库系统进行管理的软件称多数据库管理系统，多数据库管理系统是对一组自治的数据库进行管理，并供应透亮访问。

第三章分布式数据库设计

在系统设计中，最基本问题就是分布式数据库的分布问题，即如何对分布式数据库进行规律划分和实际物理安排。

数据的规律划分称数据分片。

一、两种设计策略

分布式数据库系统设计的基本策略：

从顶向下（Top_Down）的设计处理或者从下向上（Bottom-UP）的设计处理。

Top_Down:

适于新设计一个数据库系统。

（designedfromscratch）

Bottom-UP:

已存在很多数据库系统，并将它们集成为一个数据库。

典型的数据集成的争辩。

二、分布式数据库的设计目标

1.分布式数据库的本地性或近地性

2.把握数据的适当冗余

3.工作负荷分布

4.存储的力量和费用

三、数据划分准绳及分片方法

分片操作准绳:

数据划分的基本思路：

首先按DDB外部特征划分数据，然后依据DDB的内部特征，提出应恪守的基本准绳以检验数据划分的正确性。

外部特征是指构成DDB的属性群集特性，包括属性值集和数据项集等。

内部特征是指DDB的组成性质。

基本准绳：

当对DDB划分后，仍应保持DDB原有的特质，所以划分后的各逻

辑关系之间应恪守下列准绳：

完整性准绳、重构性准绳、不相交准绳

分片操作

水平分片：

水平分片是将关系按行横向以某些条件划分成元组的子集，（即：

满足条件的记录的集合）每个子集含有肯定的规律意义，称规律片段。

水平分片实际上是关系的选择操作。

即属性=“值”的具体条件的子关系Ri，因而片段可用σq（R）表示。

垂直分片:

垂直分片是将关系按列纵向以属性组划分成若干片段。

在垂直分片时，为了保证片段的重构性，应将“键属性”属于各个片段中（放松的不相交性）。

关系的垂直分片实际上是对指定属性集上的投影操作。

所以，R关系的垂直分片片段是R的部分属性组合子关系Ri，可用πAi（R）表示，其中K?

Ai。

混合分片:

混合分片是水平分片和垂直分片的内部混合。

混合分片是水平分片和垂直分片的混合操作，即对关系的选择和投影。

当要重构混合分片的各片段，可按相应次序做合并（UNION）操作和联接（JOIN）操作。

分片的基本准绳:

完备性准绳：

要把全部的数据映射到各个片断中

可重构准绳：

关系分片后的各个片断可重构整个关系

不相交准绳：

关系分片后的各个片断不能堆叠

第四章分布式查询处理和优化

一、分布式环境下查询分为三品种型：

局部查询：

查询本站点上存放的数据

近程查询：

查询在网络上的另一个站点上存放的数据

全局查询：

查询涉及多个站点上存放的数据

二、查询优化的目标

集中式查询优化

目的：

为每个用户查询寻求总代价（QC）最小的执行策略

总代价QC=I/O代价+CPU代价

总代价最小意味着使查询的响应时间最短

三、优化内容

优化内容体现如下几点：

1.执行运算的次序。

2.执行每种运算的方法。

如上例，不同方法代价不同。

3.所访问的副本场地。

如：

选择就近的场地，节省传输代价。

4.执行运算的场地的选择。

使总的传输代价或总代价最低。

综合考虑，确定出一种执行代价最小的查询执行策略。

四、影响查询处理效率的因素有：

网络传输代价（数据量和延迟等）、局部I/O代价及CPU使用情况代价等，但次要由网络通信代价和局部I/O代价来衡量。

不同的分布式数据库系统可能对评估查询处理的传输代价和I/O代价的侧重不同。

为提高查询的效率，在查询处理过程中还要进行优化处理。

查询优化就是确定出一种执行代价最小的查询执行策略或查找相对较优的操作执行步骤。

一般可接受多级优化。

本章引见全局查询的处理与优化。

五、查询处理层次

全局查询优化（GlobalQueryOptimization）

1.找接近于最优的执行策略；

2.找片段查询中最佳的操作挨次，包括通信操作。

3.需要实时定义代价函数。

4.局部查询优化（LocalQueryOptimization）

集中的系统算法.

1.INGRES–动态优化（dynamicoptimization）

2.SystemR–基于穷举法的静态优化（staticoptimizationbasedonexhaustivesearch）

第五章分布式查询的存取优化

一、分布执行过程实际上就是从查询场地发出查询命令、从数据源猎取数据、确定最佳的执行场地和前往执行结果的过程。

查询场地：

指发出查询命令和存储最终查询结果的场地。

查询场地也称最终结果文件。

源数据场地：

指查询命令需要访问的数据副本所在的场地，可能涉及到一个或一个以上的场地。

源数据场地也称源数据文件。

执行场地：

指查询操作执行所在的场地。

执行场地可以和查询场地或源数据场地处于同一场地，也可不处于同一场地。

执行场地也称两头结果文件。

二、分布查询的存取优化的目标

对于近程网，次要考虑通信开销，使通信代价最小。

对于局域网，需同时考虑通信代价和本地处理代价，使综合代价最小。

三、优化的内容

优化是在片段查询的基础上进行的实际物理副本查询操作的优化。

具体如下：

输入：

片段查询表达式

输出：

分布执行方案

内容：

1.确定片段查询需访问的物理副本。

通常：

a.本场地上的物理副本优先；b.若二元运算存在尽量选择本场地上的二元运算；c.数据最小的物理关系应被优先选中；

d.网络通信代价小的应优先选中

2.确定片段查询表达式操作执行的最优挨次。

包括从叶到根的执行和同一层叶子上表达式执行的先后，特殊是对查询树上的并操作和联接操作的执行次序的确定，其代价差别很大。

3.选择执行每个操作的方法。

如：

尽量将同一场地上的、同一物理副本的全部操作组合在一起统一考虑完成。

四、查询代价模型

次要指传输代价（Ccom）、I/O代价（CIO）和CPU代价（Ccpu）Totalcost=Ccom+CIO+Ccpu

传输代价

费用和延迟。

其中费用起打算作用。

传输费用是指使通信中的整个传输开销，即传输的数据量。

模型为：

CCOM（X）=C0+C1*X

其中：

C0：

场地间传输数据的启动所需的固定费用（启动一次），简称启动代价；

C1：

网络单位传输数据费用，简称单位传输代价；

X：

需传输的数据量。

五、半联接优化方法

对联接操作的优化有两种趋势，一种为接受半联接技术，削减联接操作的操作数，以降低传输费用；另一种为接受全联接技术，次要考虑局部代价。

一个系统需依据其目标综合确定其优化算法。

半联接的作用

接受半联接技术的优化目标是削减联接操作的操作数，以降低传输费用。

六、枚举法是基于直接联接的实现方法。

常见的直接连接算法次要有：

1.嵌套循环连接算法（nest-loop）

2.归并排序连接算法（merge-scan）

3.哈希连接算法（Hash）

4.基于索引的连接算法

七、集中式系统中的查询优化算法

分布式查询优化技术是在集中式查询优化技术基础上的扩展，其中添加了对通信代价的评估，次要引见四种优化方法，核心是：

INGRES和SystemR

1.INGRES–dynamicoptimization

2.SystemR–staticoptimizationbasedonexhaustivesearch

3.考虑代价的动态规划方法（SystemR）

4.PostgreSQL的遗传算法

第六章分布式事物管理

一、事务的定义

任何数据库应用最终都将转换为一系列对数据库进行存取的操作系列；

为了保证数据库的正确性及操作的有效性，将数据库应用中全部或部分操作序列

的执行定义为事务；

一个事务所包含的全部操作，要么全做，要么全不做，是一个不行分割的全体；

二、事务的基本模型

一个事务由三部分组成：

a.开头标识begin_transaction

b.数据库操作

c.结束标识commit或abort

commit：

表示提交，即成功完成事务中的全部数据库操作，将操作结果永久化，使数据库形态从事务执行前的形态转变到事务执行后的形态；

abort：

表示废弃，即在事务执行过程中发生了某种毛病，使得事务中的操作不能连续执行，系统需要将该事务中已完成的操作全部撤销，使数据库保持事务执行前的形态；

三、事务的基本性质

原子性（atomicity）

事务所包含的操作要么全做，要么全不做。

由于输入错误、系统过载、死锁等导致的事务废弃而需要进行的事务的原子性维护，称为事务恢复。

由于系统崩溃（死机、掉电）而导致的事务废弃或者提交结果的丢失而需要进行的原子性维护处理，称为毛病恢复。

全都性（consistency）

假如数据库的形态满足全部的完整性约束，则称该数据库是全都的。

事务的全都性，是事务执行的结果必需是使数据库从一个全都性形态变化到另一个全都性形态，而不会停留在某种不全都的两头形态上

隔离性（isolation）

当多个事务的操作交叉执行时，若不加把握，一个事务的操作及所使用的数据可能会对其它事务形成影响。

事务的隔离性是指：

一个事务的执行既不能被其它事务所干扰，同时也不能干扰其它事务。

耐久性（durability）

事务的耐久性体现在：

当一个事务提交后，系统保证该事务的结果不会因以后的毛病而丢失。

也就是说，事务一旦被提交，它对数据库的更改将是永久性的。

即便发生了毛病，系统应具备有效的恢复力量，将已提交事务的操作结果恢复过来，即重做（REDO）处理，使这些事务的执行结果不受任何影响。

四、事务的品种

依据组成结构的不同，可以将事务划分为两类：

平面事务（flat）和嵌套事务（nest）。

平面事务是指每个事务都与系统中其它事务相分别，并独立于其它事务。

平面事务是用begin和end括起来的自治执行方式。

嵌套事务是指一个事务的执行包括另一个事务。

其中，内部事务称为外部事务的子事务，外部事务称为子事务的父事务。

五、分布式事务

从宏观上来看，分布式事务是由一系列分布在多个场地上执行的数据库操作所组成的。

分布式事务：

是指分布式数据库应用中的事务，也称为全局事务。

子事务：

一个分布式事务在执行时将被分解为若干个场地上独立执行的操作序列，即一个分布式事务在某个场地上操作的集合。

六、进程模型

全局事务为每一

展开阅读全文