贪心算法论文终稿.docx

资源描述

贪心算法论文终稿.docx

《贪心算法论文终稿.docx》由会员分享，可在线阅读，更多相关《贪心算法论文终稿.docx（53页珍藏版）》请在冰豆网上搜索。

贪心算法论文终稿.docx

贪心算法论文终稿

第1章引言III

1.1研究背景III

1.2研究内容IV

1.3研究目标IV

1.4研究意义IV

1.5本文组织V

第2章贪心算法的基本知识概述VI

2.1贪心算法定义VI

2.2贪心算法的基本思路及实现过程VI

2.2.1贪心的基本思想VI

2.2.2贪心算法的实现过程VI

2.3贪心算法的核心VI

2.4贪心算法的基本要素VII

2.4.1贪心选择性质VII

2.4.2最优子结构性质VII

2.4.3贪心算法的特点VIII

2.5贪心算法的理论基础VIII

2.6贪心算法存在的问题IX

第3章经典问题解决及其优缺点X

3.1哈夫曼编码X

3.1.1问题描述X

3.1.2编码原理X

3.1.3贪心算法策略X

3.1.4最优子结构性质XI

3.1.5计算复杂性XII

3.2单源最短路径问题（Dijkstra算法）XII

3.2.1问题描述XII

3.2.2编码原理XII

3.2.3贪心算法策略XII

3.2.4计算复杂性XIV

3.3最小生成树问题（Prim算法、Kruskal算法）XIV

3.3.1Kruskal算法XIV

3.3.2Prim算法XV

第4章多处最优服务次序问题XVI

4.1问题的提出XVII

4.2贪心选择策略XVII

4.3问题的贪心选择性质XVII

4.4问题的最优子结构性质XVII

4.5算法结果分析XVIII

第5章删数问题XVIII

5.1问题的提出XIX

5.2贪心算法策略XIX

5.3问题的贪心选择性质XIX

5.4问题的最优子结构性质XIX

5.5编码XX

第6章汽车加油问题XX

6.1问题的提出XXI

6.2编码分析XXI

6.3贪心算法策略XXI

6.4贪心算法正确性证明XXII

6.5贪心算法时间复杂度分析XXII

第7章最优合并问题XXII

7.1问题的提出XXIII

7.2原理分析XXIII

7.3算法时间复杂度分析XXIII

第8章会场安排问题XXIII

8.1问题的提出XXIV

8.2编码分析XXIV

8.3贪心算法XXIV

8.4最优解证明XXV

8.5算法时间复杂度分析XXV

第9章贪心算法的C++实现XXV

9.1C++语言概述XXVI

9.2具体实现步骤XXVII

9.2.1哈夫曼算法的实现XXVII

9.2.2单源最短路径问题XXVIII

9.2.3删数问题XXX

9.2.4会场安排问题XXX

9.3程序编码与程序调试XXXI

第10章总结与展望XXXII

10.1总结XXXIII

10.2展望XXXIII

参考文献XXXIII

附录XXXIV

致谢XLII

贪心算法设计及其实际应用研究

摘要：

贪心算法是指，在对问题求解时，总是做出在当前看来是最好的选择,也就是说，不从整体最优上加以考虑，他所做出的仅是在某种意义上的局部最优解。

贪心算法不是对所有问题都能得到整体最优解，但对范围相当广泛的许多问题也能产生整体最优解或者是整体最优解的近似解。

本文首先介绍了贪心算法的核心、特点及算法本身存在的问题，接下来介绍了前人已经研究出来的成果，包括哈夫曼编码、单源最短路径、最小生成树等。

然后结合实践，研究了多处最优服务次序问题、删数问题、汽车加油问题、最优合并问题、会场安排问题等。

最后用代码实现其中的两个问题，对贪心算法的具体实现方法做了详细说明。

关键字：

贪心算法；哈夫曼编码；最小生成树；最优服务次序；汽车加油问题

Greedyalgorithmdesignanditspracticalapplication

Abstract：

Greedyalgorithmisthat,intheproblemsolving,italwaysmadeinthecurrentappearstobethebestoption.Inotherwords,notthebestonthewholetobeconsidered,hemadeonlyalocaloptimalsolutioninasense.Greedyalgorithmisnotarightthatallproblemscanbetheoveralloptimalsolution,butitcoversawiderangeofissuesthathecouldproduceanoveralloptimalsolutionorapproximatesolutionoftheoveralloptimalsolution.Thispaperdescribesthecoreofthegreedyalgorithm,characteristicsandalgorithmsinherentproblems,thenpresentedtheresultsofourpredecessorshasbeenstudiedout,includingHuffmancoding,single-sourceshortestpath,minimumspanningtreeandsoon.Thenwithpractice,studythevariousoptimalserviceorderissues,deleteafewissues,carfuel,theoptimalmerger,venuearrangementsandsoon.Atlast,thecodetoachievetwoofthemonthegreedyalgorithmtodotheconcreteimplementationmethodindetail.

Keywords：

greedyalgorithm；Huffmancoding；MST；Optimalserviceorder;Automobilerefueling

第1章引言

1.1研究背景

为了满足人们对大数据量信息处理的渴望，为解决各种实际问题，计算机算法学得到了飞速的发展，线性规划、动态规划、贪心策略等一系列运筹学模型纷纷运用到计算机算法学中，产生了解决各种现实问题的有效算法。

虽然设计一个好的求解算法更像是一门艺术而不像是技术，但仍然存在一些行之有效的、能够用于解决许多问题的算法设计方法，你可以使用这些方法来设计算法，并观察这些算法是如何工作的。

一般情况下，为了获得较好的性能，必须对算法进行细致的调整。

但是在某些情况下，算法经过调整之后性能仍无法达到要求，这时就必须寻求另外的方法来求解该问题。

当一个问题具有最优子结构性质和贪心选择性质时，贪心算法通常会给出一个简单、直观和高效的解法。

贪心算法通过一系列的选择来得到一个问题的解。

它所作的每一个选择都是在当前状态下具有某种意义的最好选择，即贪心选择；并且每次贪心选择都能将问题化简为一个更小的与原问题具有相同形式的子问题。

尽管贪心算法对许多问题不能总是产生整体最优解，但对诸如最短路径问题、最小生成树问题，以及哈夫曼编码问题等具有最优子结构和贪心选择性质的问题却可以获得整体最优解。

而且所给出的算法一般比动态规划算法更加简单、直观和高效。

1.2研究内容

贪心算法的定义（是指从问题的初始状态出发，通过若干次的贪心选择而得出最优值（或较优解）的一种解题方法），贪心算法的基本要素（最优子结构性质、贪心选择性质）、贪心算法的思路及过程，贪心算法的核心（贪心策略）及特性（无回溯）、探讨贪心算法存在的问题。

然后分析已有成果运用贪心策略的解法（哈夫曼编码、单源最短路径问题、最小生成树等），结合实际中的例子（多处最优服务次序问题、删数问题、汽车加油问题、会场安排问题、最优合并问题），对贪心算法进行分析与运用。

1.3研究目标

通过本课题的研究来探讨贪心算法理论基础以及对贪心策略在更多实例中的运用做可行的研究，为贪心算法能够运用到更多的实际中的问题作示范。

1.4研究意义

贪心算法是计算机算法策略中常用的一个，往往在需要解决一些最优性问题时，都可以应用贪心算法。

贪心算法的用法特点有：

一是明显的贪心，一般此类应用问题本身就是贪心；二是贪心数据结构，如：

堆，最小树；三是可证明贪心策略的贪心，这是我们最常见的；四是博弈、游戏策略，这些策略大多是贪心；五是求较优解或多次逼近最优解。

通过用贪心算法求解以上问题，可以找到解决这些问题的最优算法，为其它的类似问题的解决有示范和例证作用。

1.5本文组织

本文从如下方面进行组织：

先提出贪心算法的基本知识，再从贪心算法的几个现有的成果研究探讨，然后对贪心算法中的几个经典问题进行研究，写出其中两个问题的代码，最后进行总结。

第2章贪心算法的基本知识概述

2.1贪心算法定义

贪心算法可以简单描述为：

对一组数据进行排序，找出最小值，进行处理，再找出最小值，再处理。

也就是说贪心算法是一种在每一步选择中都采取在当前状态下最好或最优的选择，从而希望得到结果是最好或最优的算法。

贪心算法是一种能够得到某种度量意义下的最优解的分级处理方法，通过一系列的选择来得到一个问题的解，而它所做的每一次选择都是当前状态下某种意义的最好选择，即贪心选择。

即希望通过问题的局部最优解来求出整个问题的最优解。

这种策略是一种很简洁的方法，对许多问题它能产生整体最优解，但不能保证总是有效，因为它不是对所有问题都能得到整体最优解，只能说其解必然是最优解的很好近似值。

2.2贪心算法的基本思路及实现过程

2.2.1贪心的基本思想

用局部解构造全局解，即从问题的某一个初始解逐步逼近给定的目标，以尽可能快地求得更好的解。

当某个算法中的某一步不能再继续前进时，算法停止。

贪心算法思想的本质就是分治，或者说：

分治是贪心的基础。

每次都形成局部最优解，换一种方法说，就是每次都处理出一个最好的方案。

利用贪心策略解题，需要解决两个问题：

（1）该题是否适合于用贪心策略求解；

（2）如何选择贪心标准，以得到问题的最优/较优解。

2.2.2贪心算法的实现过程

（1）应用同一规则F，将原问题变为一个相似的、但规模更小的子问题；

（2）从问题的某一初始解出发：

While（能朝给定目标前进一步）

　求出可行解的一个解元素；

（3）由所有解元素组合成问题的一个可行解。

2.3贪心算法的核心

贪心算法的核心问题是选择能产生问题最优解的最优度量标准，即具体的贪心策略。

贪心策略是指从问题的初始状态出发，通过若干次的贪心选择而得出最优值（或较优解）的一种解题方法。

其实，从“贪心策略”一词我们便可以看出，贪心策略总是做出在当前看来是最优的选择，也就是说贪心策略并不是从整体上加以考虑，它所做出的选择只是在某种意义上的局部最优解，而许多问题自身的特性决定了该题运用贪心策略可以得到最优解或较优解。

2.4贪心算法的基本要素

2.4.1贪心选择性质

所谓贪心选择性质是指所求问题的整体最优解可以通过一系列局部最优的选择，即贪心选择来达到。

这是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。

在动态规划算法中，每步所做的选择往往依赖于相关子问题的解。

因而只有在解出相关子问题后，才能做出选择。

而在贪心算法中，仅在当前状态下做出最好选择，即局部最优选择。

然后再去解做出这个选择后产生的相应的子问题。

贪心算法所做的贪心选择可以依赖于以往所做过的选择，但决不依赖于将来所做的选择，也不依赖于子问题的解。

正是由于这种差别，动态规划算法通常以自底向上的方式解各子问题，而贪心算法则通常以自顶向下的方式进行，以迭代的方式做出相继的贪心选择，每做一次贪心选择就将所求问题简化为规模更小的子问题。

对于一个具体问题，要确定它是否具有贪心选择性质，必须证明每一步所做的贪心选择最终导致问题的整体最优解。

首先考察问题的一个整体最优解，并证明可修改这个最优解，使其以贪心选择开始。

做了贪心选择后，原问题简化为规模更小的类似子问题。

然后，用数学归纳法证明，通过每一步做贪心选择，最终可得到问题的整体最优解。

其中，证明贪心选择后的问题简化为规模更小的类似子问题的关键在于利用该问题的最优子结构性质。

2.4.2最优子结构性质

当一个问题的最优解包含其子问题的最优解时，称此问题具有最优子结构性质。

运用贪心策略在每一次转化时都取得了最优解。

问题的最优子结构性质是该问题可用贪心算法或动态规划算法求解的关键特征。

贪心算法的每一次操作都对结果产生直接影响，而动态规划则不是。

贪心算法对每个子问题的解决方案都做出选择，不能回退；动态规划则会根据以前的选择结果对当前进行选择，有回退功能。

动态规划主要运用于二维或三维问题，而贪心一般是一维问题。

2.4.3贪心算法的特点

贪心算法的最大特点就是快，通常是线性二次式，不需要多少额外的内存。

一般二次方级的存储要浪费额外的空间，而且那些空间经常得不出正解。

但是，使用贪心算法时，这些空间可以帮助算法更容易实现且更快执行。

如果有正确贪心性质存在，那么一定要采用。

因为它容易编写，容易调试，速度极快，并且节约空间。

几乎可以说，此时它是所有算法中最好的。

但是应该注意，贪心算法有两大难点：

（1）如何贪心

怎样用一个小规模的解构造更大规模的解呢?

总体上，这与问题本身有关。

但是大部分都是有规律的。

正因为贪心有如此性质，它才能比其他算法快。

具有应当采用贪心算法的问题，当“贪心序列”中的每项互异且当问题没有重叠性时，看起来总能通过贪心算法取得（近似）最优解的。

或者，总有一种直觉在引导我们对一些问题采用贪心算法。

其中“找零钱”这个问题就是一个例子。

题中给出的硬币面值事实上具有特殊性，如果面值发生变化，可能贪心算法就不能返回最优解了。

但是，值得指出的是，当一个问题具有多个最优解时，贪心算法并不能求出所有最优解。

另外，我们经过实践发现，单纯的贪心算法是顺序处理问题的；而且每个结果是可以在处理完一个数据后即时输出的。

（2）贪心的正确性

要证明贪心性质的正确性，才是贪心算法的真正挑战，因为并不是每次局部最优解都会与整体最优解之间有联系，往往靠贪心算法生成的解不是最优解。

这样，贪心性质的证明就成了贪心算法正确的关键。

对某些问题贪心性质也许是错的，即使它在大部分数据中都是可行的，但还必须考虑到所有可能出现的特殊情况，并证明该贪心性质在这些特殊情况中仍然正确。

而这样容易陷入证明不正确贪心性质的泥塘中无法自拔，因为贪心算法的适用范围并不大，而且有一部分极难证明，若是没有把握，最好不要冒险，还有其他算法会比它要保险。

2.5贪心算法的理论基础

正如前文所说的那样，贪心策略是最接近人类认知思维的一种解题策略。

但是，越是显而易见的方法往往越难以证明。

下面我们就来介绍贪心策略的理论—拟阵。

“拟阵”理论是一种能够确定贪心策略何时能够产生最优解的理论，虽然这套理论还很不完善，但在求解最优化问题时发挥着越来越重要的作用。

拟阵M定义为满足下面3个条件的有序对（S，I）：

（1）S是非空有限集；

（2）I是S的一类具有遗传性质的独立子集族，即若B∈I，则B是S的独立子集，且B的任意子集也都是S的独立子集。

空集￠必为I的成员；

（3）I满足交换性质，即若A∈I，B∈I且|A|<|B|，则存在某一元素x∈B-A，使得A∪{x}∈I。

定理2.1拟阵M中所有极大独立子集具有相同大小。

引理2.1（拟阵的贪心选择性质）设M=（S，I）是具有权函数M的带权拟阵，且S中元素依权值从大到小排列，又设x∈S是S中第一个使得{x}是独立子集元素，则存在S的最优子集A使得x∈A。

引理2.2设M=（S，I）是拟阵。

若S中元素x不是空集￠的一个可扩元素，则x也不可能是S中任一独立子集A的可扩展元素。

引理2.3（拟阵的最优子结构性质）设x是求带权拟阵M=（S，I）的最优子集的贪心算法Greedy所选择的S中的第一个元素。

那么，原问题可简化为求带权拟阵M'=（S'，I'）的最优子集问题，其中

S'={y|y∈S且{x，y}∈I}

I'={B|B

S-{x}且B∪{x}∈I}

M'的权函数是M的权函数在S'上的限制（称M'为M关于元素x的收缩）。

定理2.4（带权拟阵贪心算法的正确性）高M=（S，I）是具有权函数W的带权拟阵，算法Greedy返回M的最优子集。

适宜于用贪心策略来求解的许多问题都可以归结为在加权拟阵中找一个具有最大权值的独立子集的问题，即给定一个加权拟阵M=（S，I），若能找出一个独立且具有最大可能权值的子集A，且A不被M中比它更大的独立子集所包含，那么A为最优子集，也是一个最大的独立子集。

我们认为，针对绝大多数的信息学问题，只要它具备了“拟阵”的结构，便可用贪心策略求解。

拟阵理论对于我们判断贪心策略是否适用于某一复杂问题是十分有效的。

2.6贪心算法存在的问题

（1）不能保证求得的最后解是最佳的。

由于贪心策略总是采用从局部看来是最优的选择，因此并不从整体上加以考虑；

（2）贪心算法只能用来求某些最大或最小解的问题；

（3）贪心算法只能确定某些问题的可行性范围。

第3章经典问题解决及其优缺点

3.1哈夫曼编码

3.1.1问题描述

哈夫曼编码是广泛地用于数据文件压缩的十分有效的编码方法。

其压缩率通常在20%～90%之间。

哈夫曼编码算法用字符在文件中出现的频率表来建立一个用0，1串表示各字符的最优表示方式。

3.1.2编码原理

对每一个字符规定一个0，1串作为其代码，并要求任一字符的代码都不是其它字符代码的前缀。

这种编码称为前缀码。

编码的前缀性质可以使译码方法非常简单。

由于任一字符的代码都不是其他字符代码的前缀，从编码文件中不断取出代表某一字符的前缀码，转换为原字符，即可逐个译出文件中的所有字符。

可以用二叉树作为前缀编码的数据结构。

在表示前缀码的二叉树中，树叶代表给定的字符，并将每个字符的前缀码看做是从树根到代表该字符的树叶的一条道路。

代码中每一位的0或1分别作为指示某结点到左儿子或右儿子的“路标”。

3.1.3贪心算法策略

设C是编码字符集，C中字符c的频率为f（c）。

又设x和y是C中具有最小频率的两个字符，则存在C的最优前缀码使x和y具有相同码长且仅最后一位编码不同。

证明：

设二叉树T表示C的任意一个最优前缀码。

下面证明可以对T做适当修改后得到一棵新的二叉树T"，使得在新树中，x和y是最深叶子且为兄弟。

同时新树T"表示的前缀码也是C的最优前缀码。

如果能做到这一点，则x和y在T"表示的最优前缀码中就具有相同的码长且仅最后一位编码不同。

设b和c是二叉树T的最深叶子且为兄弟。

不失一般性，可设f（b）≤f（c），f（x）≤f（y）。

由于x和y是C中具有最小频率的两个字符，故f（x）≤f（b），f（y）≤f（c）。

首先在树T中交换叶子b和x的位置得到树T'，然后在树T'中再交换叶子c和y的位置。

得到树T"。

如图3.1所示。

Fig.3.1CounterchangetheCoding-treeT

图3.1编码树T的变换

由此可知，树T和T’表示的前缀码的平均码长之差为

B（T）-B（T’）=

=f（x）dT（x）+f（b）dT（b）-f（x）dT’（x）-f（b）dT’（b）

=f（x）dT（x）+f（b）dT（b）-f（x）dT（b）-f（b）dT（x）

=（f（b）-f（x））（dT（b）-dT（x））≥0

最后一个不等式是因为f（b）-f（x）和dT（b）-dT（x）均为非负。

类似地，可以证明在T’中交换y与c的位置也不增加平均码长，即B（T’）-B（T"）也是非负的。

由此可知，B（T"）≤B（T’）≤B（T）。

另一方面，由于T所表示的前缀码是最优的，故B（T）≤B（T"）。

因此，B（T）=B（T"），即T"表示的前缀码也是最优前缀码，且x和y具有最长的码长，同时仅最后一位编码不同。

3.1.4最优子结构性质

设T是表示字符集C的一个最优前缀码的完全二叉树。

C中字符c的出现频率为f（c）。

设x和y是树T中的两个叶子且为兄弟，z是它们的父亲。

若将z看做是具有频率f（z）=f（x）+f（y）的字符，则树T’=T-{x，y}表示字符集C’=C-{x，y}∪{z}的一个最优前缀码。

证明：

首先证明T的平均码长B（T）要用T’的平均码长B（T’）来表示。

事实上，对任意c∈C-{x，y}有dT（c）=dT’（c），故f（c）dT（c）=f（c）dT’（c）。

另一方面，dT（x）=dT（y）=dT’（z）+1，故

f（x）dT（x）+f（y）dT（y）=（f（x）+f（y））（dT’（z）+1）

=f（x）+f（y）+f（z）dT’（z）

由此即知，B（T）=B（T’）+f（x）+f（y）。

若T’所表示的字符集C’的前缀码不是最优的，则有T"表示的C’的前缀码使得B（T"）

由于z被看做是C’中的一个字符，故z在T"中是一树叶。

若将x和y加入树T"中作为z的儿子，则得到表示字符集C的前缀码的二叉树T"'，且有

B（T"'）=B（T"）+f（x）+f（y）

=B（T）

这与T的最优性矛盾。

故T’所表示的C’的前缀码是最优的。

由贪心选择性质和最优子结构性质立即可推出：

哈夫曼算法是正确的，即HuffmanTree产生C的一棵最优前缀编码树。

3.1.5计算复杂性

算法HuffmanTree用最小堆实现优先队列Q。

初始化优先队列需要O（n）计算时间，由于最小堆的DeleteMin和Insert运算均需O（logn）时间，n-1次的合并总共需要O（nlogn）计算时间。

因此，关于n个字符的哈夫曼算法的计算时间为O（nlogn）。

3.2单源最短路径问题（Dijkstra算法）

3.2.1问题描述

给定一个带权有向图G=（V，E），其中每条边的权是一个非负实数。

另外，还给定V中的一个顶点，称为源。

现在我们要计算从源到所有其他各顶点的最短路径长度。

这里的长度是指路上各边权之和。

这个问题通常称为单源最短路径问题。

3.2.2编码原理

设置顶点集合S并不断地作贪心选择来扩充这个集合。

一个顶点属于集合S当且仅当从源到该顶点的最短路径长度已知。

初始时，S中仅含有源。

设u是G的某一个顶点，把从源到u且中间只经过S中顶点的路称为从源到u的特殊路径，并用数组dist记录当前每个顶点所对应的最短特殊路径长度。

Dijkstra算法每次从V-S中取出具有最短特殊路长度的顶点u，将u添加到S中，同时对数组dist作必要的修改。

一旦S包含了所有V中顶点，dist就记录了从源到所有其它顶点之间的最短路径长度。

3.2.3贪心算法策略

Dijkstra算法是应用贪心算法设计策略的一个典型例子。

它所作的贪心选择是从V-S中选择具有最短特殊路径的顶点u，从而确定从源到u的最短路径长度dist[u]。

这种贪心选择为什么能导致最优解呢？

换句话说，为什么从源到u没有更短的其他路径呢？

事实上，如果存在一条从源到u且长度比dist[u]更短的路，设这条路初次走出S之外到达的顶点为x∈V-S，然后徘徊于S内外若干次，最后离开S到达u，如图3.2所示。

Fig.3.2TheshortcutwhichForm

展开阅读全文