论随机化算法的原理与设计Word格式文档下载.docx
《论随机化算法的原理与设计Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《论随机化算法的原理与设计Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。
随机化算法的定义
随机化算法是这样一种算法,在算法中使用了随机函数,且随机函数的返回值直接或间接地影响了算法的执行流程或执行结果。
根据这个定义,并不是所有的用了随机函数的算法都可称为随机化算法。
例如,某个算法包含
iRANDOM(N),
但变量i除了在这里被赋予一个随机值之外,在其它地方从未出现过。
显然,如果这个算法没有在其它地方用过随机函数,上面这条语句就无法影响执行的流程或结果,这个算法就不能称为随机化算法。
另一方面,若一个算法是随机化算法,则它执行的流程或结果就会受其中使用的随机函数的影响。
我们按影响的性质和程度分三种情况:
1.随机不影响执行结果。
这时,随机必然影响了执行的流程,其效应多表现为算法的时间效率的波动。
2.随机影响执行结果的正确性。
在这种情况中,原问题要求我们求出某个可行解,或者原问题为判定性问题[3],随机的效应表现为执行得到正确解的概率。
3.随机影响执行结果的优劣。
这时,随机的效应表现为实际执行结果与理论上的最优解或期望结果的差异。
第2,3种情况中,随机的影响还可能伴随有对执行流程的影响。
我们后面的讨论就分这三种情况进行。
在讨论之前,我们还要澄清一个问题。
随机化和“运气”
由于随机化算法的执行情况受到不确定因素的支配,因此即使同一个算法在多次执行中用同样的输入,其执行情况也会不同,至少略有差异。
差异表现为出解速度快慢,解正确与否,解的优劣等等。
例如:
一个随机化算法可能在两次执行中,前一次得到的解较优,后一次的较劣。
现在的问题是:
在大多情况中,尤其是竞赛时,对于同样的输入,只允许程序运行一次,根据运行结果判定算法的好坏。
如此一来,我们就会把出劣解的一次运行归咎于运气不佳,反之亦然。
然而,比赛比的是谁的算法更有效,而不是谁的运气更好。
既然我们使用了随机函数,我们就无法摆脱运气的影响,所以我们的目标是尽量将运气的影响降到最低。
也就是说,我们必须使算法的执行情况较为稳定。
因此,在接下来的对算法的分析中,我们将从以下四方面分析算法的性能。
1.时间效率;
2.解的正确性;
3.解的优劣程度(解与最优解的接近程度);
4.稳定性,即算法对同样的输入的执行情况的变化。
变化越小则越稳定。
非随机化算法的稳定性为100%,随机化算法的稳定性属于区间(0%,100%)。
通常,只要算法的程序实现所用的空间不超过内存限制,我们就不必刻意提高算法的空间效率,所以我们省去了空间效率这项分析。
上面第4项的“稳定性”可以是算法的平均时间复杂度,也可以是执行算法得到正确解的概率,还可以是实际解达到某一优劣程度的概率。
“稳定性”这一项是评判随机化算法好坏的一个重要指标。
2.执行结果确定的随机化算法
在这一节中,我们以快速排序和它的随机化版本为例,讨论执行结果确定的随机化算法。
根据引言中的分析,一个随机化算法的执行结果确定,则它的执行流程必会受随机的影响,影响多表现在算法的时间效率上。
所以在下面的讨论中,我们省去了对算法执行结果正确性和优劣的分析。
快速排序算法
快速排序是一种我们常用的排序方法,它的基本思想是递归式的:
将待排序的一组数划分为两部分,前一部分的每个数不大于后一部分的每个数,然后继续分别对这两部分作划分,直到待划分的那部分数只含一个数为止。
算法可由以下伪代码描述。
QUICKSORT(A,lo,hi)
1iflo<
hi
2pPARTITION(A,lo,hi)
3QUICKSORT(A,lo,p)
4QUICKSORT(A,p+1,hi)
如果待排序的n个数存入了数组A,则调用QUICKSORT(A,1,n)就可获得升序排列的n个数。
以上的快速排序的算法依赖于PARTITION(A,lo,hi)划分过程。
该过程在(n)的时间内,把A[lo..hi]划分成不大于x=A[lo],和不小于x=A[lo]的两部分。
这两部分分别存入A[lo..p]和A[p+1,hi]。
而在QUICKSORT(A,lo,hi)过程中递归调用QUICKSORT(),对A[lo..p]和A[p+1..hi]继续划分。
可以证明[4],快速排序在最坏情况下(如每次划分都使p=lo)的时间复杂度为(n2),在最坏情况下的时间复杂度为(nlog2n)。
如果假设输入中出现各种排列都是等概率的(但实际情况往往不是这样),则算法的平均时间复杂度为O(nlog2n)。
随机化的快速排序
经分析我们看到,快速排序是十分有效的排序法,其平均时间复杂度为O(nlog2n)。
但是在最坏情况下,它的时间复杂度为(n2),当n较大时,速度就很慢(见本节后部的算法性能对照表)。
其实,如果照前面的假设,输入中出现各种排列都是等概率的,那么出现最坏情况的概率小到只有(1/n!
),且在()中隐含的常数是很小的。
这样看来,快速排序还是相当有价值的。
但是实际情况往往不符合该假设,可能对某个问题来说,我们遇到的输入大部分都是最坏情况或次坏情况。
一种解决的办法是不用x=A[lo]划分A[lo..hi],而用x=A[hi]或x=A[(lo+hi)div2]或其它的A[lo..hi]中的数来划分A[lo..hi],这要看具体情况而定。
但这并没有解决问题,因为我们可能遇到的这样的输入:
有三类,每一类出现的概率为1/3,且每一类分别对于x=A[lo],x=A[hi],x=A[(lo+hi)div2]为它们的最坏情况,这时快速排序就会十分低效。
我们将快速排序随机化后可克服这类问题。
随机化快速排序的思想是:
每次划分时从A[lo..hi]中随机地选一个数作为x对A[lo..hi]划分。
只需对原算法稍作修改就行了。
我们只是增加了PARTITION_R函数,它调用原来的PARTITION()过程。
QUICKSORT_R()中斜体部分为我们对QUICKSORT的修改。
PARTITION_R(A,lo,hi)
1rRANDOM(hi-lo+1)+lo
2交换A[lo]和A[r]
3returnPARTITION(A,lo,hi)
QUICKSORT_R(A,lo,hi)
2pPARTITION_R(A,lo,hi)
3QUICKSORT_R(A,lo,p)
4QUICKSORT_R(A,p+1,hi)
分析随机化快速排序算法
随机化没有改动原来快速排序的划分过程,故随机化快速排序的时间效率依然依赖于每次划分选取的数在排好序的数组中的位置,其最坏,平均,最佳时间复杂度依然分别为(n2),O(nlog2n),(nlog2n),只不过最坏情况,最佳情况变了。
最坏,最佳情况不再由输入所决定,而是由随机函数所决定。
也就是说,我们无法通过给出一个最坏的输入来使执行时出现最坏情况(除非我们运气不佳)。
正如引论中所提到的,我们现在来分析随机化快速排序的稳定性。
按各种排列的出现等概率的假设(该假设不一定成立),快速排序遇到最坏情况的可能性为(1/n!
)。
假设RANDOM(n)产生n个数的概率都相同(该假设几乎一定成立),则随机化快速排序遇到最坏情况的可能性也为(1/n!
如果n足够大,我们就有多于99%的可能性会“交好运”。
也就是说,随机化的快速排序算法有很高的稳定性。
下面是原来的快速排序和随机化后的快速排序的性能对照表。
分析项目
原算法
随机化后的算法
理论时间效率
最坏情况
(n2)
最佳情况
(nlog2n)
平均情况
O(nlog2n)
稳定性
(1)
(1-1/n!
)
实际运行情况
随机输入(n=30000)
0.22s
0.27s
最坏输入(n=30000)
66s
稳定性(n足够大)
100%
>
99%
结论
最坏情况的起因
最坏输入
随机函数返回值不佳
时间效率对输入的依赖
完全依赖
完全不依赖
对以上表格有几点说明:
1.程序运行环境为Pentium100MHz,BP7.0编译。
2.随机化算法的相应程序的运行时间均为1000次运行的平均值。
3.测试随机化算法的稳定性时,相应程序对不同输入各运行了1000次。
4.程序代码见QSORT.PAS。
小结
从以上分析看出,执行结果确定的随机化算法原理是:
用随机函数全部或部分地抵消最坏输入的作用,使算法的时间效率不完全依赖于输入的好坏。
通过对输入的适当控制,使得执行结果相对稳定,这是设计这一类随机化算法的常用方法。
例如,在随机化快速排序算法中,我们每次随机地选取x来划分A[lo..hi]。
这一方法的效应等价于在排序前先随机地将A中的数打乱。
又如在建立查找二叉树时,可先随机地将待插入的关键字的顺序打乱,然后依次插入树中,以获得较平衡的查找二叉树,提高以后查找关键字的效率。
3.执行结果可能偏离正确解的随机化算法
在这一节中我们讨论第2种情况的随机化算法。
这种随机化算法甚至会输出错误的结果,但它依然是很有效的。
我们以判定素数的算法为例。
朴素的素数判定算法
对于较小的n,我们可以用“筛数法”判定n是否为素数。
对于稍大一点的n,我们可以先求出[2,sqrt(n)]内的所有素数,再用这些素数试除n。
这两种方法都要借助于大数组,如果n足够大,就不再适用了。
这时,我们只能用2,3,...,sqrt(n)试除n,一旦除尽,n必然是合数,否则为素数。
算法描述如下:
ISPRIME_NAIVE(n)
1fora2tosqrt(n)
2ifa|n
3returnFALSE
4returnTRUE
实现时,我们可以先判断n是否为偶数,然后用3,5,7,9,...试除n,以加快程序运行速度。
经管如此,当遇到较大的素数n时,这一算法还是会显得十分慢的。
其最坏情况时间复杂度为(n½
随机化的素数判定算法
换一个角度,由Fermat定理我们知道:
若n是素数,a不能整除n,则
an-11(modn)
必然成立。
我们将它改成:
若n是素数,对于a=1,2,...,n-1,有an-11(modn)。
所以,若存在整数a[1,n-1],使得an-11(modn),则a必为合数。
我们考虑以下算法:
ISPRIME_R(n,s)
1fori1tos
2aRANDOM(n-1)+1
3if