用哈夫曼编码实现文件压缩.docx
《用哈夫曼编码实现文件压缩.docx》由会员分享,可在线阅读,更多相关《用哈夫曼编码实现文件压缩.docx(14页珍藏版)》请在冰豆网上搜索。
![用哈夫曼编码实现文件压缩.docx](https://file1.bdocx.com/fileroot1/2023-1/21/e66ca494-b293-4ab2-b908-6554a9579926/e66ca494-b293-4ab2-b908-6554a95799261.gif)
用哈夫曼编码实现文件压缩
《用哈夫曼编码实现文件压缩》
实验项目指导书
《数据结构》实验教学改革课题组
2006年12月
一、
实验题目
用哈夫曼编码实现文件压缩
二、实验目的
1、了解文件的概念。
2、掌握线性链表的插入、删除等算法。
3、掌握Huffman树的概念及构造方法。
4、掌握二叉树的存储结构及遍历算法。
5、利用Huffman树及Huffman编码,掌握实现文件压缩的一般原理。
三、实验设备及环境
微型计算机、Windows系列操作系统、VisualC++软件
四、实验内容
根据ascii码文件中各ascii字符出现的频率情况创建Haffman树,再将各字符对应的哈夫曼编码写入文件中,实现文件压缩。
五、实验要求
1、用C语言编程实现上述实验内容中的结构定义和算法。
2、要有main()函数,并且在main()函数中使用检测数据调用上述算法。
3、实验完成后撰写实验报告,实验报告的具体格式参见《实验报告样例》。
4、实验完成后把打印好的实验报告以及电子版的实验报告和源程序一并上交。
六、实验方法或或步骤
1、实验的预备知识
(1)构造Hufffman树的方法—Hufffman算法
构造Huffman树步骤:
I.根据给定的n个权值{w1,w2,……wn},构造n棵只有根结点的二叉树,令起权值为wj。
II.在森林中选取两棵根结点权值最小的树作左右子树,构造一棵新的二叉树,置新二叉树根结点权值为其左右子树根结点权值之和。
III.在森林中删除这两棵树,同时将新得到的二叉树加入森林中。
IV.重复上述两步,直到只含一棵树为止,这棵树即哈夫曼树。
(2)Huffman编码:
数据通信用的二进制编码
思想:
根据字符出现频率编码,使电文总长最短
编码:
根据字符出现频率构造Huffman树,然后将树中结点引向其左孩子的分支标“0”,引向其右孩子的分支标“1”;每个字符的编码即为从根到每个叶子的路径上得到的0、1序列。
(3)二叉树的存储结构
typedefstructnode
{
datatypedata;
structnode*lchild,*rchild;
}BinTree;
2、实验步骤
(1)启动Visualc++,如图2-1所示。
图2-1
(2)鼠标单击“文件”菜单,选择“New”菜单,如图2-2所示。
图2-2
(3)、单击鼠标,在出现的“New”对话框中,选择“Projects”标签下的“Win32ConsoleApplication”选项,如图2-3所示。
图2-3
(4)、在“Projectname”中输入工程名称,单击“OK”按钮,如图2-4所示。
图2-4
(5)、单击“Finish”按钮,如图2-5所示。
图2-5
(6)、鼠标单击“OK”按钮,完成工程的创建,如图2-6所示。
图2-6
(7)、选择“工程”—〉“添加工程”—〉“New”菜单,如图2-7所示。
图2-7
(8)、单击鼠标,在出现的“New”对话框中,选择“Files”标签,选择“c++SourceFile”选项,在“File”框中输入文件名:
“”,单击“OK”按钮,如图2-8所示。
图2-8
(9)、输入代码,如图2-9所示。
图2-9
3、设计思想
(1)下面给出中实现的Haffman树的结构及创建算法,有两点说明:
a)这里的Haffman树采用的是基于数组的带左右儿子结点及父结点下标作为存储结点的二叉树形式,这种空间上的消耗带来了算法实现上的便捷。
b)由于对于最后生成的Haffman树,其所有叶子结点均为从一个内部树扩充出去的,所以,当外部叶子结点数为m个时,内部结点数为m-1,整个Haffman树的需要的结点数为2m-1。
/*Code1:
HaffmanAlgorithm*/
#defineMAXCHAR30000
#defineMAXNODE300
#defineMAXNUM150
#defineInfoTypechar
structHtNode
{
EBTreeTypeww;
charinfo;
intparentIndex;
intllinkIndex;
intrlinkIndex;
};
structHtTree
{
structHtNodeht[MAXNODE];
introotIndex;
};
typedefstructHtTree*PHtTree;
PHtTreehaffmanAlgorithm(intm,EBTreeType*w)
{
PHtTreepht;
inti,j;
intfirstMinIndex,secondMinIndex;
intfirstMinW,secondMinW;
pht=(PHtTree)malloc(sizeof(structHtTree));
assertF(pht!
=NULL,"inhaffmanalgorithm,memapplyfailure\n");
/*Initializethetreearray*/
for(i=0;i<2*m-1;i++)
{
pht->ht[i].llinkIndex=-1;
pht->ht[i].rlinkIndex=-1;
pht->ht[i].parentIndex=-1;
if(i{
pht->ht[i].ww=w[i];
pht->ht[i].info=(char)i;
}
else
pht->ht[i].ww=-1;
}
for(i=0;iht[j].parentIndex==-1)
{
firstMinIndex=j;
firstMinW=pht->ht[j].ww;
}
elseif(pht->ht[j].wwht[j].parentIndex==-1)
/*updatesecondnodeinfo*/
{
secondMinW=pht->ht[j].ww;
secondMinIndex=j;
}
}
m+iiscurrentnewnode'sindex
pht->ht[firstMinIndex].parentIndex=m+i;
pht->ht[secondMinIndex].parentIndex=m+i;
pht->ht[m+i].ww=firstMinW+secondMinW;
pht->ht[m+i].llinkIndex=firstMinIndex;
pht->ht[m+i].rlinkIndex=secondMinIndex;
pht->rootIndex=m+i;
}
returnpht;
}
(2)压缩过程的实现:
压缩过程的流程是清晰而简单的:
1创建Haffman树→2打开需压缩文件→3将需压缩文件中的每个ascii码对应的haffman编码按bit单位输出→4文件压缩结束。
其中,步骤1和步骤3是压缩过程的关键。
a)步骤1:
这里所要做工作是得到Haffman数中各叶子结点字符出现的频率并进行创建。
统计字符出现的频率可以有很多方法:
如每次创建前扫描被创建的文件,“实时”的生成各字符的出现频率;或者是创建前即做好统计。
本文采用后一种的方案,统计了十篇不同的文章中字符出现的频率。
当前,也可以根据被压缩文件的特性有针对性的进行统计,如要压缩C语言的源文件,则可事先对多篇C语言源文件中出现的字符进行统计,这样,会创建出高度相对较“矮”的Haffman树,从而提高压缩效果。
b)步骤3:
将需压缩文件中的每个ascii码对应的haffman编码按bit单位输出,这是本压缩程序中最关键的部分。
这里涉及“转换”和“输出”两个关键步骤:
“转换”部分大可不必去通过遍历Haffman树来找到每个字符对应的哈夫曼编码,可以将每个Haffman码值及其对应的ascii码存放于如下所示的结构体中:
typedefstruct
{
charasciiCode;
unsignedlonghaffCode;
inthaffCodeLen;
}HaffCode;
创建由该结构体结点所组成的,长度为128的一维数组codeList[128]
且codeList中的下标和asciiCode满足下面的顺序存放关系:
codeList[i].asciiCode=i;
这样的话,查找某个字符inChar的haffman编码的工作便变得相当轻松了,如下:
sHaffCode=codeList[inChar].haffCode;
数组codeList[128]的创建可以采用某种遍历方式下的按找到的字符进行置数的方式,十分的方便。
/*Code2:
codeList的创建算法,采用前序遍历的方式进行创建.
*/
voidpreHaffListMake(PHtTreeinTree,introotIndex,unsignedlongyouBiao,intsDepth,
HaffCode*inList)
{
if(inTree->ht[rootIndex].llinkIndex==-1&&inTree->ht[rootIndex].rlinkIndex==-1)
{
inList[inTree->ht[rootIndex].info].haffCode=youBiao;
inList[inTree->ht[rootIndex].info].haffCodeLen=sDepth;
}
else
{
preHaffListMake(inTree,inTree->ht[rootIndex].llinkIndex,youBiao<<1,sDepth+1,inList);
preHaffListMake(inTree,inTree->ht[rootIndex].rlinkIndex,(youBiao<<1)|0x01,sDepth+1,inList);
}
}
“输出”部分是最重要的部分,也是最易出错的部分。
这里,涉及到C语言的位操作,要求这个算法能处理好以下几个问题:
1)每个字符所对应的haffCode的比特位长度由5~23位不等长,不可少输,多输,输错任何一位,后一个字符的haffCode要紧跟在前一个字符的haffCode后面。
2)最后一个字符要能合理的结束。
这主要是为解压缩考虑的,比如,在最后一个要输出的haffCode的最后一位,它恰好是位于最后一个有效字符的第一位,剩下的七个比特位是要用无效的haffCode加以填充的。
否则,如果填充的haffCode亦为某个ascii字符的haffCode时,那么在解压缩时,则该在原被压缩文件中不存在的字符便会无中生有的在解压后的文件中出现,这显然是不正确的,应在程序中加以处理。
编码部分的流程如图3-1所示:
图3-1
/*Code3:
压缩部分的核心代码
*/
#defineREARPOS80
curIndex=curLen=0;
rearCode=haffList[REARPOS].haffCode;
rearCodeLen=haffList[REARPOS].haffCodeLen;
while(!
feof(inputFile))
{
count=0;
outputData=0x01;
while(count<8)
{
/*----------------------------*/
if(curIndex==curLen)
{
if(feof(inputFile))
break;
inData=fgetc(inputFile);
printf("%c",inData);
if(inData==-1&&feof(inputFile))
{
if(count==0)
outputData=-1;
else/*therearoutputadjust*/
{
for(i=0;i<8-count;i++)
{
outputData<<=1;
outputData|=((rearCode>>(rearCodeLen-1-i))&0x01);
}
}
break;
}
curCode=haffList[inData].haffCode;
curLen=haffList[inData].haffCodeLen;
realLen=getBinLen(curCode);
i=curLen-realLen;
curIndex=0;
}
if(i>0)
{
outputData<<=1;
i--;
}
else
{
tmpBinData=(curCode>>(curLen-curIndex-1))&0x01;
outputData<<=1;
outputData|=(char)tmpBinData;
}
/*-----------------------------------*/
curIndex++;
count++;
}
fputc(outputData,outputFile);
}