数据库查询方法.docx

资源描述

数据库查询方法.docx

《数据库查询方法.docx》由会员分享，可在线阅读，更多相关《数据库查询方法.docx（21页珍藏版）》请在冰豆网上搜索。

数据库查询方法.docx

数据库查询方法

第八章查找

（一）查找的基本概念本章简介

　由于查找运算的使用频率很高，几乎在任何一个计算机系统软件和应用软件中都会涉及到，所以当问题所涉及的数据量相当大时，查找方法的效率就显得格外重要。

在一些实时查询系统中尤其如此。

因此，本章将系统地讨论各种查找方法，并通过对它们的效率分析来比较各种查找方法的优劣。

查找的基本概念

1、查找表和查找

　一般，假定被查找的对象是由一组结点组成的表（Table）或文件，而每个结点则由若干个数据项组成。

并假设每个结点都有一个能惟一标识该结点的关键字。

　查找（Searching）的定义是：

给定一个值K，在含有n个结点的表中找出关键字等于给定值K的结点。

若找到，则查找成功，返回该结点的信息或该结点在表中的位置；否则查找失败，返回相关的指示信息。

2、查找表的数据结构表示

（1）动态查找表和静态查找表

　若在查找的同时对表做修改操作（如插入和删除），则相应的表称之为动态查找表。

否则称之为静态查找表。

（2）内查找和外查找

　和排序类似，查找也有内查找和外查找之分。

若整个查找过程都在内存进行，则称之为内查找；反之，若查找过程中需要访问外存，则称之为外查找。

3、平均查找长度ASL

　查找运算的主要操作是关键字的比较，所以通常把查找过程中对关键字需要执行的平均比较次数（也称为平均查找长度）作为衡量一个查找算法效率优劣的标准。

平均查找长度ASL（AverageSearchLength）定义为：

其中：

　①n是结点的个数；

　②Pi是查找第i个结点的概率。

若不特别声明，认为每个结点的查找概率相等，即

pl=p2…=pn=1/n

　③ci是找到第i个结点所需进行的比较次数。

注意：

　为了简单起见，假定表中关键字的类型为整数：

typedefintKeyType；//KeyType应由用户定义

第八章查找

（二）线性表的顺序查找

2.顺序查找（SequentialSearch）

　在表的组织方式中，线性表是最简单的一种。

顺序查找是一种最简单的查找方法。

1、顺序查找的基本思想

　基本思想是：

从表的一端开始，顺序扫描线性表，依次将扫描到的结点关键宇和给定值K相比较。

若当前扫描到的结点关键字与K相等，则查找成功；若扫描结束后，仍未找到关键字等于K的结点，则查找失败。

2、顺序查找的存储结构要求

　　顺序查找方法既适用于线性表的顺序存储结构，也适用于线性表的链式存储结构（使用单链表作存储结构时，扫描必须从第一个结点开始）。

3、基于顺序结构的顺序查找算法

（1）类型说明

typedefstruct{

KeyTypekey；

InfoTypeotherinfo；//此类型依赖于应用

}NodeType；

typedefNodeTypeSeqList[n+1]；//0号单元用作哨兵

（2）具体算法

intSeqSearch（SeqlistR，KeyTypeK）

{//在顺序表R[1..n]中顺序查找关键字为K的结点，

//成功时返回找到的结点位置，失败时返回0

inti；

R[0].key=K；//设置哨兵

for（i=n；R[i].key!

=K;i--）；//从表后往前找

returni；//若i为0，表示查找失败，否则R[i]是要找的结点

}//SeqSearch

注意：

　监视哨设在高端的顺序查找【参见练习】

（3）算法分析

①算法中监视哨R[0]的作用

为了在for循环中省去判定防止下标越界的条件i≥1，从而节省比较的时间。

②成功时的顺序查找的平均查找长度：

　在等概率情况下，pi=1/n（1≤i≤n），故成功的平均查找长度为

（n+…+2+1）/n=（n+1）/2

即查找成功时的平均比较次数约为表长的一半。

　若K值不在表中，则须进行n+1次比较之后才能确定查找失败。

③表中各结点的查找概率并不相等的ASL

顺序查找演示过程【动画演示】

　【例】在由全校学生的病历档案组成的线性表中，体弱多病同学的病历的查找概率必然高于健康同学的病历，由于上式的ASLsq在pn≥pn-1≥…≥p2≥p1时达到最小值。

若事先知道表中各结点的查找概率不相等和它们的分布情况，则应将表中结点按查找概率由小到大地存放，以便提高顺序查找的效率。

　为了提高查找效率，对算法SeqSearch做如下修改：

每当查找成功，就将找到的结点和其后继（若存在）结点交换。

这样，使得查找概率大的结点在查找过程中不断往后移，便于在以后的查找中减少比较次数。

④顺序查找的优点

　算法简单，且对表的结构无任何要求，无论是用向量还是用链表来存放结点，也无论结点之间是否按关键字有序，它都同样适用。

⑤顺序查找的缺点

　　查找效率低，因此，当n较大时不宜采用顺序查找。

第八章查找（三）线性表的二分查找

3.二分查找

1、二分查找（BinarySearch）

　二分查找又称折半查找，它是一种效率较高的查找方法。

　二分查找要求：

线性表是有序表，即表中结点按关键字有序，并且要用向量作为表的存储结构。

不妨设有序表是递增有序的。

2、二分查找的基本思想

　二分查找的基本思想是：

（设R[low..high]是当前的查找区间）

（1）首先确定该区间的中点位置：

（2）然后将待查的K值与R[mid].key比较：

若相等，则查找成功并返回此位置，否则须确定新的查找区间，继续二分查找，具体方法如下：

　①若R[mid].key>K，则由表的有序性可知R[mid..n].keys均大于K，因此若表中存在关键字等于K的结点，则该结点必定是在位置mid左边的子表R[1..mid-1]中，故新的查找区间是左子表R[1..mid-1]。

　②类似地，若R[mid].key

下一次查找是针对新的查找区间进行的。

　因此，从初始的查找区间R[1..n]开始，每经过一次与当前查找区间的中点位置上的结点关键字的比较，就可确定查找是否成功，不成功则当前的查找区间就缩小一半。

这一过程重复直至找到关键字为K的结点，或者直至当前的查找区间为空（即查找失败）时为止。

3、二分查找算法

intBinSearch（SeqListR，KeyTypeK）

{//在有序表R[1..n]中进行二分查找，成功时返回结点的位置，失败时返回零

intlow=1，high=n，mid；//置当前查找区间上、下界的初值

while（low<=high）{//当前查找区间R[low..high]非空

mid=（low+high）/2；

if（R[mid].key==K）returnmid；//查找成功返回

if（R[mid].kdy>K）

high=mid-1;//继续在R[low..mid-1]中查找

else

low=mid+1；//继续在R[mid+1..high]中查找

}

return0；//当low>high时表示查找区间为空，查找失败

}//BinSeareh

二分查找算法亦很容易给出其递归程序【参见练习】

4、二分查找算法的执行过程

　　设算法的输入实例中有序的关键字序列为

（05，13，19，21，37，56，64，75，80，88，92）

要查找的关键字K分别是21和85。

具体查找过程参见动画演示

5、二分查找判定树

　二分查找过程可用二叉树来描述：

把当前查找区间的中间位置上的结点作为根，左子表和右子表中的结点分别作为根的左子树和右子树。

由此得到的二叉树，称为描述二分查找的判定树（DecisionTree）或比较树（ComparisonTree）。

注意：

　判定树的形态只与表结点个数n相关，而与输入实例中R[1..n].keys的取值无关。

　【例】具有11个结点的有序表可用下图所示的判定树来表示。

（1）二分查找判定树的组成

　　①圆结点即树中的内部结点。

树中圆结点内的数字表示该结点在有序表中的位置。

　　②外部结点：

圆结点中的所有空指针均用一个虚拟的方形结点来取代，即外部结点。

　　③树中某结点i与其左（右）孩子连接的左（右）分支上的标记"<"、"（"、">"、"）"表示：

当待查关键字KR[i].key）时，应走左（右）分支到达i的左（右）孩子，将该孩子的关键字进一步和K比较。

若相等，则查找过程结束返回，否则继续将K与树中更下一层的结点比较。

（2）二分查找判定树的查找

　　二分查找就是将给定值K与二分查找判定树的根结点的关键字进行比较。

若相等，成功。

否则若小于根结点的关键字，到左子树中查找。

若大于根结点的关键字，则到右子树中查找。

　　【例】对于有11个结点的表，若查找的结点是表中第6个结点，则只需进行一次比较；若查找的结点是表中第3或第9个结点，则需进行二次比较；找第1，4，7，10个结点需要比较三次；找到第2，5，8，11个结点需要比较四次。

　由此可见，成功的二分查找过程恰好是走了一条从判定树的根到被查结点的路径，经历比较的关键字次数恰为该结点在树中的层数。

若查找失败，则其比较过程是经历了一条从判定树根到某个外部结点的路径，所需的关键字比较次数是该路径上内部结点的总数。

【例】待查表的关键字序列为：

（05，13，19，21，37，56，64，75，80，88，92），若要查找K=85的记录，所经过的内部结点为6、9、10，最后到达方形结点"9-10"，其比较次数为3。

　实际上方形结点中"i-i+1"的含意为被查找值K是介于R[i].key和R[i+1].key之间的，即R[i].key

（3）二分查找的平均查找长度

　设内部结点的总数为n=2h-1，则判定树是深度为h=lg（n+1）的满二叉树（深度h不计外部结点）。

树中第k层上的结点个数为2k-1，查找它们所需的比较次数是k。

因此在等概率假设下，二分查找成功时的平均查找长度为：

ASLbn≈lg（n+1）-1

　　二分查找在查找失败时所需比较的关键字个数不超过判定树的深度，在最坏情况下查找成功的比较次数也不超过判定树的深度。

即为：

　　二分查找的最坏性能和平均性能相当接近。

6、二分查找的优点和缺点

　　虽然二分查找的效率高，但是要将表按关键字排序。

而排序本身是一种很费时的运算。

既使采用高效率的排序方法也要花费O（nlgn）的时间。

　　二分查找只适用顺序存储结构。

为保持表的有序性，在顺序结构里插入和删除都必须移动大量的结点。

因此，二分查找特别适用于那种一经建立就很少改动、而又经常需要查找的线性表。

　　对那些查找少而又经常需要改动的线性表，可采用链表作存储结构，进行顺序查找。

链表上无法实现二分查找。

第八章查找（四）顺序表的分块查找

4.分块查找

　分块查找（BlockingSearch）又称索引顺序查找。

它是一种性能介于顺序查找和二分查找之间的查找方法。

1、二分查找表存储结构

　二分查找表由"分块有序"的线性表和索引表组成。

（1）"分块有序"的线性表

　表R[1..n]均分为b块，前b-1块中结点个数为

，第b块的结点数小于等于s；每一块中的关键字不一定有序，但前一块中的最大关键字必须小于后一块中的最小关键字，即表是"分块有序"的。

（2）索引表

　抽取各块中的最大关键字及其起始位置构成一个索引表ID[l..b]，即：

ID[i]（1≤i≤b）中存放第i块的最大关键字及该块在表R中的起始位置。

由于表R是分块有序的，所以索引表是一个递增有序表。

　　【例】下图就是满足上述要求的存储结构，其中R只有18个结点，被分成3块，每块中有6个结点，第一块中最大关键字22小于第二块中最小关键字24，第二块中最大关键字48小于第三块中最小关键字49。

2、分块查找的基本思想

　　分块查找的基本思想是：

（1）首先查找索引表

　　索引表是有序表，可采用二分查找或顺序查找，以确定待查的结点在哪一块。

（2）然后在已确定的块中进行顺序查找

　　由于块内无序，只能用顺序查找。

3、分块查找示例

【例】对于上例的存储结构：

（1）查找关键字等于给定值K=24的结点

　　因为索引表小，不妨用顺序查找方法查找索引表。

即首先将K依次和索引表中各关键字比较，直到找到第1个关键宇大小等于K的结点，由于K<48，所以关键字为24的结点若存在的话，则必定在第二块中；然后，由ID[2].addr找到第二块的起始地址7，从该地址开始在R[7..12]中进行顺序查找，直到R[11].key=K为止。

（2）查找关键字等于给定值K=30的结点

　　先确定第二块，然后在该块中查找。

因该块中查找不成功，故说明表中不存在关键字为30的结点。

　　具体过程【参见动画演示】

4、算法分析

（1）平均查找长度ASL

　　分块查找是两次查找过程。

整个查找过程的平均查找长度是两次查找的平均查找长度之和。

①以二分查找来确定块，分块查找成功时的平均查找长度

ASLblk=ASLbn+ASLsq≈lg（b+1）-1+（s+1）/2≈lg（n/s+1）+s/2

②以顺序查找确定块，分块查找成功时的平均查找长度

ASL'blk=（b+1）/2+（s+1）/2=（s2+2s+n）/（2s）

注意：

当s=

时ASL'blk取极小值

+1，即当采用顺序查找确定块时，应将各块中的结点数选定为

。

　　【例】若表中有10000个结点，则应把它分成100个块，每块中含100个结点。

用顺序查找确定块，分块查找平均需要做100次比较，而顺序查找平均需做5000次比较，二分查找最多需14次比较。

　　注意：

　　分块查找算法的效率介于顺序查找和二分查找之间。

（2）块的大小

　　在实际应用中，分块查找不一定要将线性表分成大小相等的若干块，可根据表的特征进行分块。

　　【例】一个学校的学生登记表，可按系号或班号分块。

（3）结点的存储结构

　　各块可放在不同的向量中，也可将每一块存放在一个单链表中。

（4）分块查找的优点

　　分块查找的优点是：

　　①在表中插入或删除一个记录时，只要找到该记录所属的块，就在该块内进行插入和删除运算。

　　②因块内记录的存放是任意的，所以插入或删除比较容易，无须移动大量记录。

　　分块查找的主要代价是增加一个辅助数组的存储空间和将初始表分块排序的运算。

第八章查找（五）二叉排序树和它的建立当用线性表作为表的组织形式时，可以有三种查找法。

其中以二分查找效率最高。

但由于二分查找要求表中结点按关键字有序，且不能用链表作存储结构，因此，当表的插入或删除操作频繁时，为维护表的有序性，势必要移动表中很多结点。

这种由移动结点引起的额外时间开销，就会抵消二分查找的优点。

也就是说，二分查找只适用于静态查找表。

若要对动态查找表进行高效率的查找，可采用下面介绍的几种特殊的二叉树或树作为表的组织形式。

不妨将它们统称为树表。

下面将分别讨论在这些树表上进行查找和修改操作的方法。

5.二叉排序树

1、二叉排序树的定义

　　二叉排序树（BinarySortTree）又称二叉查找（搜索）树（BinarySearchTree）。

其定义为：

二叉排序树或者是空树，或者是满足如下性质的二叉树：

①若它的左子树非空，则左子树上所有结点的值均小于根结点的值；

②若它的右子树非空，则右子树上所有结点的值均大于根结点的值；

③左、右子树本身又各是一棵二叉排序树。

　　上述性质简称二叉排序树性质（BST性质），故二叉排序树实际上是满足BST性质的二叉树。

2、二叉排序树的特点

　　由BST性质可得：

（1）二叉排序树中任一结点x，其左（右）子树中任一结点y（若存在）的关键字必小（大）于x的关键字。

（2）二叉排序树中，各结点关键字是惟一的。

注意：

　　实际应用中，不能保证被查找的数据集中各元素的关键字互不相同，所以可将二叉排序树定义中BST性质

（1）里的"小于"改为"大于等于"，或将BST性质

（2）里的"大于"改为"小于等于"，甚至可同时修改这两个性质。

　　（3）按中序遍历该树所得到的中序序列是一个递增有序序列。

　　【例】下图所示的两棵树均是二叉排序树，它们的中序序列均为有序序列：

2，3，4，5，7，8。

3、二叉排序树的存储结构

typedefintKeyType；//假定关键字类型为整数

typedefstructnode{//结点类型

KeyTypekey；//关键字项

InfoTypeotherinfo；//其它数据域，InfoType视应用情况而定，下面不处理它

structnode*lchild，*rchild；//左右孩子指针

}BSTNode；

typedefBSTNode*BSTree；//BSTree是二叉排序树的类型

4、二叉排序树上的运算

（1）二叉排序树的插入和生成

①二叉排序树插入新结点的过程

　　在二叉排序树中插入新结点，要保证插入后仍满足BST性质。

其插入过程是：

　　（a）若二叉排序树T为空，则为待插入的关键字key申请一个新结点，并令其为根；

　　（b）若二叉排序树T不为空，则将key和根的关键字比较：

　　（i）若二者相等，则说明树中已有此关键字key，无须插入。

　　（ii）若key

　　（iii）若key>T→key，则将它插入根的右子树中。

　　子树中的插入过程与上述的树中插入过程相同。

如此进行下去，直到将key作为一个新的叶结点的关键字插入到二叉排序树中，或者直到发现树中已有此关键字为止。

②二叉排序树插入新结点的递归算法

【参见参考书目】

③二叉排序树插入新结点的非递归算法

voidInsertBST（BSTree*Tptr，KeyTypekey）

{//若二叉排序树*Tptr中没有关键字为key，则插入，否则直接返回

BSTNode*f，*p=*TPtr；//p的初值指向根结点

while（p）{//查找插入位置

if（p->key==key）return；//树中已有key，无须插入

f=p；//f保存当前查找的结点

p=（keykey）?

p->lchild：

p->rchild；

//若keykey，则在左子树中查找，否则在右子树中查找

}//endwhile

p=（BSTNode*）malloc（sizeof（BSTNode））；

p->key=key；p->lchild=p->rchild=NULL；//生成新结点

if（*TPtr==NULL）//原树为空

*Tptr=p；//新插入的结点为新的根

else//原树非空时将新结点关p作为关f的左孩子或右孩子插入

if（keykey）

f->lchild=p；

elsef->rchild=p；

}//InsertBST

④二叉排序树的生成

　　二叉排序树的生成，是从空的二叉排序树开始，每输入一个结点数据，就调用一次插入算法将它插入到当前已生成的二叉排序树中。

生成二叉排序树的算法如下：

BSTreeCreateBST（void）

{//输入一个结点序列，建立一棵二叉排序树，将根结点指针返回

BSTreeT=NULL；//初始时T为空树

KeyTypekey；

scanf（"％d"，&key）；//读人一个关键字

while（key）{//假设key=0是输人结束标志

InsertBST（&T，key）；//将key插入二叉排序树T

scanf（"％d"，&key）；//读人下一关键字

}

returnT；//返回建立的二叉排序树的根指针

}//BSTree

⑤二叉排序树的生成过程

　　由输入实例（5，3，7，2，4，8），根据生成二叉排序树算法生成二叉排序树的过程【参见动画演示】

注意：

　　输入序列决定了二叉排序树的形态。

　　二叉排序树的中序序列是一个有序序列。

所以对于一个任意的关键字序列构造一棵二叉排序树，其实质是对此关键字序列进行排序，使其变为有序序列。

"排序树"的名称也由此而来。

通常将这种排序称为树排序（TreeSort），可以证明这种排序的平均执行时间亦为O（nlgn）。

　　对相同的输入实例，树排序的执行时间约为堆排序的2至3倍。

因此在一般情况下，构造二叉排序树的目的并非为了排序，而是用它来加速查找，这是因为在一个有序的集合上查找通常比在无序集合上查找更快。

因此，人们又常常将二叉排序树称为二叉查找树。

第五章查找（六）二叉排序树的删除

（2）二叉排序树的删除

　从二叉排序树中删除一个结点，不能把以该结点为根的子树都删去，并且还要保证删除后所得的二叉树仍然满足BST性质。

①删除操作的一般步骤

（1）进行查找

　查找时，令p指向当前访问到的结点，parent指向其双亲（其初值为N

展开阅读全文