分布式数据库.ppt
《分布式数据库.ppt》由会员分享,可在线阅读,更多相关《分布式数据库.ppt(68页珍藏版)》请在冰豆网上搜索。
分布式数据库,1分布式数据库系统概论2分布式数据库系统的设计3查询处理和优化4分布式系统中的死锁处理,分布式数据库系统概论,1.分布式数据库系统概论1.1分布式数据库系统1.2分布式数据库系统的特点1.3分布式数据库系统的体系结构1.4分布式数据库管理系统,1.1分布式数据库系统,分布式数据库系统,通俗地说,是物理上分散而逻辑上集中的数据库系统。
分布式数据库系统使用计算机网络将地理位置分散而管理和控制又需要不同程度几种的多个逻辑单位连接起来,共同组成一个统一的数据库系统。
因此,分布式数据库系统可以看成是计算机网络与数据库系统的有机结合。
1.1分布式数据库系统,图1一个分布式数据库系统,例1如图1所示,1.1分布式数据库系统,区分一个系统是若干集中式数据库的简单连网还是分布式数据库系统的技术要点在于:
系统是否支持全局应用一个典型的例子是银行转账从一个分行的账户(设在DB1数据库)中转移若干金额到另一个分行的账户(设在DB3数据库)中去要同时更新两个结点上的数据库,1.1分布式数据库系统,图2一个多处理机系统(SN并行结构),例2如图2所示,1.1分布式数据库系统,多处理机系统(SN并行结构)没有局部应用分布式数据库不仅要求数据的物理分布,而且要求这种分布是面向处理、面向应用的,1.2分布式数据库系统的特点,
(1)数据独立性逻辑独立性物理独立性数据分布独立性(分布透明性)用户的应用程序书写起来就如同数据没有分布一样,分布式数据库系统概论,
(2)集中与自治相结合的控制结构数据共享:
(1)局部共享
(2)全局共享控制机制:
集中自治,分布式数据库系统概论,(3)适当增加数据冗余度提高系统的可靠性、可用性提高系统性能(4)全局的一致性、可串行性和可恢复性局部数据库要保证ACID全局数据库也要保证ACID,1.3分布式数据库系统的模式结构,图3分布式数据库系统的模式结构,1.3分布式数据库系统的模式结构,分布式数据库系统增加的模式级别
(1)全局外模式(GlobalExternalSchema)是全局应用的用户视图,所以也称全局视图。
分布式数据库的全局视图不是从某一个具体站点的局部数据库中抽取,而是从一个由各局部数据库组成的逻辑几何中抽取,即全局外模式是全局概念模式的子集。
然而,对全局用户而言,都可以认为在整个分布式数据库系统的各个站点上所有数据库如同在本站点上一样,只关心他们自己所使用的那部分数据。
(2)全局概念模式(GlobalConceptualSchema)全局概念模式描述分布式数据库中全局数据的逻辑结构和数据特性。
1.3分布式数据库系统的模式结构,(3)分片模式(FragmentationSchema)描述全局数据的逻辑划分;描述数据分片或定义分片,以及全局关心与片段之间的映像。
这种映像是一对多的,即一个全局关系可对应多个片段,而一个片段只能来自一个全局关系。
(4)分布模式(AllocationSchema)定义片段的存放地点,1.4分布式数据库管理系统,1.4.1分布式数据库管理系统的功能分布式数据库管理系统(DistributedDataManagementSystem,D-DBMS)是分布式数据库系统的核心,负责实现分布式数据库的建立、查询、更新、复制和维护等功能,同时还包括提供分布透明性,查询优化、协调全局事务的执行,协调各局部DBMS共同完成全局应用,保证数据库的全局一致性,执行并发控制,实现更新同步和全局恢复等功能。
1.4分布式数据库管理系统,DDBMS除了提供集中式DDBMS所提供的功能外,还必须能够提供一下集中式DDBMS所不能提供的功能。
1)数据跟踪:
具有能够通过扩展DDBMS日志来记录数据分布、分片和复制的能力。
2)分布式查询处理:
具有能够通过通信网络存取远程站点的数据,以及在不同站点间传输请求和数据的能力。
3)分布式事务管理:
具有能够为需要从多个站点存取数据的查询和事务执行策略的能力,以及将分布式数据的存取和整个数据库完备性的维持保持同步的能力。
1.4分布式数据库管理系统,4)复制数据的管理:
具有能够把数据库从单个站点故障和新类型故障中恢复的能力5)安全性:
分布式事务的执行必须具有适当的数据安全管理,以及用户授权/存取权限的安全管理。
6)分布式目录管理:
目录包含了数据库中有关数据的信息,它对整个分布式数据库来说是全局的,对于每个站点来说又是局部的。
1.4分布式数据库管理系统,1.4.2分布式数据库管理系统的结构根据分布式数据库系统的特点,可以将分布式数据库管理系统的结构分为以下四个功能模块:
1.查询处理模块查询分析优化处理2.完整性处理模块该模块主要负责维护数据库的完整性和一致性,检查完整性规则,处理多副本数据的同步更新等。
1.4分布式数据库管理系统,3.调度处理模块调度处理模块就负责向有关的站点发出命令,使相应站点的DBMS执行这些局部处理。
4.可靠性处理模块分布式数据库系统基于计算机网络,自然就会增加产生故障的因素。
可靠性处理模块负责不断地监视系统的各个部分是否有故障出现。
当故障修复后,可靠性处理模块负责将该部分重新并入系统,使之继续有效地运行,并保持数据库的一致性状态。
分布式数据库系统的设计,2分布式数据库系统的设计2.1分布式数据库系统的设计方法2.2数据分片2.3分布透明性,2.1分布式数据库系统的设计方法,
(1)自顶向下设计方法设计集中式数据库的一般方法包括四个阶段:
需求分析、概念设计、逻辑设计和物理设计。
分布式数据库设计在这四个阶段的基础上要增加一个新的阶段,称作分布设计,它位于逻辑设计与物理设计之间,以一个全局的、与站点无关的模式作为输入,以产生分布式数据库各站点的子模式作为结果输出。
包括数据的分片设计和片段的位置分配设计。
2.1分布式数据库系统的设计方法,
(2)自底向下设计方法自底向下设计方法的重点是把现有的各种不同的数据库模式作为全局模式。
所谓集成就是把公用数据定义整合起来,并解决同一数据不同表示方法之间的冲突。
2.2数据分片,数据分片有利于按照用户的需求较好地组织数据的分布有利于控制数据的冗余度数据分片的方式水平分片垂直分片混合分片导出分片,2.2数据分片,水平分片按一定的条件将关系按行(水平方向)分为若干不相交的子集,每个子集为关系的一个片段。
垂直分片指将关系按列(垂直方向)分为若干子集。
每个片段通常都包含关系的码,2.2数据分片,导出分片是指导出水平分片,即水平分片的条件不是本身属性的条件而是其他关系的属性的条件。
2.2数据分片,例学生选课关系SC(Sno,Cno,Grade),按照学生年龄18岁和18岁分片(学生年龄是学生关系Student的属性)年龄18岁的学生选课片段由下面的查询结果组成:
SELECTSno,Cno,GradeFROMS,SCWHERES.SnoSC.SnoANDS.Sage18;年龄18岁的片段SC_B由下面的查询结果组成:
SELECTSno,Cno,GradeFROMS,SCWHERES.SnoSC.SnoANDS.Sage18;,2.2数据分片,混合分片是指按上述三种分片方式得到的片段继续按另一种方式分片。
例如,先按垂直分片再按水平分片方式继续分片。
例如,先按水平分片得到的某一片段再进行垂直分片。
2.2数据分片,分片应满足的条件完全性各片段定义中的谓词的集合必须是完整的,即至少是它们允许值的集合。
例如:
SEX=M,F季节=春,夏,秋,冬不相交性如果谓词集合是互斥的,它们的片段必不相交可重构性如果谓词集合是完整的,则通过并操作总能重构全局关系,2.3分布透明性,分片透明性最高层次用户或应用程序只对全局关系进行操作而不必考虑关系的分片位置透明下一层次用户或应用程序不必了解片段的存储场地,当存储场地改变了,由于分片模式到分布模式的映像(映像3),应用程序不必改变局部数据模型透明性较低层次是指用户或用户程序不必了解局部场地上使用的是哪种数据模型,模型的转换以及数据库语言的转换均由映像4完成,2.3分布透明性,例1设在分布式数据库系统中有全局关系Student(Sno,Sname,Sdept,Sage)Student关系被划分为两个片段S_A和S_B。
S_A代表理学院的学生,S_B代表文学院的学生。
S_A存储在场地1(Site1),S_B冗余地存储在场地2和场地3上。
2.3分布透明性,要求从终端读入一个学号,查找该学号的学生姓名、年龄,并把它们显示在屏幕上。
设应用程序是用嵌入SQL语句的C语言写的。
现给出查询部分的算法思想。
2.3分布透明性,情况1系统具有分片透明性Scanf(“%s”,Snumber);EXECSQLSELECTSname,SageINTO:
NAME,:
AGEFROMStudentWHERESno:
Snumber;Printf(%s,%d,NAME,AGE);,程序变量,2.3分布透明性,情况2系统具有位置透明性,但不具有分片透明性Scanf(%s“,Snumber);EXECSQLSELECTSname,SageINTO:
NAME,:
AGEFROMS_AWHERESno:
Snumber;If(!
FOUND)EXECSQLSELECTSname,SageINTO:
NAME,:
AGEFROMS_BWHERESno:
Snumber;Printf(%s,%d“,NAME,AGE);,2.3分布透明性,情况3系统只具有局部数据模型透明性,不具有位置透明性Scanf(%s“,Snumber);EXECSQLSELECTSname,SageINTO:
NAME,:
AGEFROMS_AATSite1WHERESno:
Snumber;If(!
FOUND)EXECSQLSELECTSname,SageINTO:
NAME,:
AGEFROMS_BATSite2WHERESno:
Snumber;Printf(“%s,%d”,NAME,AGE);,查询处理和优化,3查询处理和优化3.1一个实例3.2分布式查询的分类3.3查询优化的目标3.4连接查询的优化,3.1一个实例,数据库:
简化了的供应商和零件数据库S(Sno,City)104个元组,存放在场地A;P(Pno,Color)105个元组,存放在场地B;SP(Sno,Pno)166个元组,存放在场地A;设每个关系的元组均为100字节长。
查询:
求供应红色零件的、北京的供应商号SELECTS.SnoFROMS,P,SPWHERES.City=北京ANDSP.Pno=P.PnoANDP.Color=红色,3.1一个实例,估算值(某些中间结果的元组数)红色零件数=10北京供应商的装运单数=105对通信系统的假定数据传输速度=104字节/秒传输延迟=1秒,3.1一个实例,6种可能的查询存取策略,对每种i分别计算通信时间Ti:
Ti总传输延迟+总数据量/数据传输速度(单位:
b/s)策略1把关系P传送到场地A,在A地进行查询处理。
T1=1+105100/104=103秒(16.7分),3.1一个实例,策略2把关系S、SP传到场地B,在B地执行查询处理T2=2+(104+106)100/10410100秒(2.8小时),3.1一个实例,策略3在场地A连接关系S和SP,选出城市为北京的元组(105个),然后对这些元组中的每个元组的Pno,询问场地B,看此零件是否红色。
共问答105次,由于不是传送数据,只是消息的问答,所以T3=2105s(2.3天),3.1一个实例,策略4在场地B选出红色零件的元组(10个),然后对每一个元组逐一检查场地A,看北京供应商的装运单中是否有这个零件装运单(若有则选出S#)。
每做这样一次检查包括2次消息,共问一答10次,所以T4=210=20秒,3.1一个实例,策略5在场地A选