哈弗曼树的文件压缩和解压实验报告C语言.docx
《哈弗曼树的文件压缩和解压实验报告C语言.docx》由会员分享,可在线阅读,更多相关《哈弗曼树的文件压缩和解压实验报告C语言.docx(17页珍藏版)》请在冰豆网上搜索。
![哈弗曼树的文件压缩和解压实验报告C语言.docx](https://file1.bdocx.com/fileroot1/2022-11/25/eed51b9d-1c47-4b4f-9fd2-b0a316bf7abf/eed51b9d-1c47-4b4f-9fd2-b0a316bf7abf1.gif)
哈弗曼树的文件压缩和解压实验报告C语言
Lab05树结构的应用
学号:
姓名:
实验时间:
2011.5.24
1.问题描述
哈弗曼树的编码与译码
—功能:
实现对任何类型文件的压缩与解码
—输入:
源文件,压缩文件
—输出:
解码正确性判定,统计压缩率、编码与解码速度
—要求:
使用边编码边统计符号概率的方法(自适应Huffman编码)和事先统计概率的方法(静态Huffman编码)。
2.1程序清单
程序书签:
1.main函数
2.压缩函数
3.select函数
4.encode函数
5.解压函数
#include
#include
#include
#include
#include
structnode{
longweight;//权值
unsignedcharch;//字符
intparent,lchild,rchild;
charcode[256];//编码的位数最多为256位
intCodeLength;//编码长度
}hfmnode[512];
voidcompress();
voiduncompress();
//主函数
voidmain()
{
intchoice;
printf("请选择1~3:
\n");
printf("1.压缩文件\n");
printf("2.解压文件\n");
printf("3.退出!
\n");
scanf("%d",&choice);
if(choice==1)compress();
elseif(choice==2)uncompress();
elseif(choice==3)return;
elseprintf("输入错误!
");
}
//压缩函数
voidcompress()
{
inti,j;
charinfile[20],outfile[20];
FILE*ifp,*ofp;
unsignedcharc;//
longFileLength,filelength=0;
intn,m;//叶子数和结点数
ints1,s2;//权值最小的两个结点的标号
charcodes[256];
longsumlength=0;
floatrate,speed;
intcount=0;
clock_tstart1,start2,finish1,finish2;
doubleduration1,duration2;
voidencode(structnode*nodep,intn);//编码函数
intselect(structnode*nodep,intpose);//用于建哈弗曼树中选择权值最小的结点的函数
printf("请输入要压缩的文件名:
");
scanf("%s",infile);
ifp=fopen(infile,"rb");
if(ifp==NULL)
{
printf("文件名输入错误,文件不存在!
\n");
return;
}
printf("请输入目标文件名:
");
scanf("%s",outfile);
ofp=fopen(outfile,"wb");
if(ofp==NULL)
{
printf("文件名输入错误,文件不存在!
\n");
return;
}
start1=clock();//开始计时1
//统计文件中字符的种类以及各类字符的个数
//先用字符的ASCII码值代替结点下标
FileLength=0;
while(!
feof(ifp))
{
fread(&c,1,1,ifp);
hfmnode[c].weight++;
FileLength++;
}
FileLength--;//文件中最后一个字符的个数会多统计一次,所以要减一
hfmnode[c].weight--;
//再将ASCII转换为字符存入到结点的ch成员里,同时给双亲、孩子赋初值-1
n=0;
for(i=0;i<256;i++)
if(hfmnode[i].weight!
=0)
{
hfmnode[i].ch=(unsignedchar)i;
n++;//叶子数
hfmnode[i].lchild=hfmnode[i].rchild=hfmnode[i].parent=-1;
}
m=2*n-1;//哈弗曼树结点总数
j=0;
for(i=0;i<256;i++)//去掉权值为0的结点
if(hfmnode[i].weight!
=0)
{
hfmnode[j]=hfmnode[i];
j++;
}
for(i=n;i{
hfmnode[i].lchild=hfmnode[i].rchild=-1;
hfmnode[i].parent=-1;
}
//建立哈弗曼树
for(i=n;i{
s1=select(hfmnode,i-1);
hfmnode[i].lchild=s1;
hfmnode[s1].parent=i;
s2=select(hfmnode,i-1);
hfmnode[i].rchild=s2;
hfmnode[s2].parent=i;
hfmnode[i].weight=hfmnode[s1].weight+hfmnode[s2].weight;
}
//编码
encode(hfmnode,n);
finish1=clock();
duration1=(double)(finish1-start1)/CLOCKS_PER_SEC;
/*printf("哈弗曼树编码用时为:
%fseconds\n",duration1);*/
printf("编码完成,是否查看编码信息:
yorn?
\n");
c=getch();
if(c=='y')
{printf("\n");
printf("叶子数为%d,结点数为%d\n",n,m);
for(i=0;iprintf("%d号叶子结点的权值为:
%ld,双亲为:
%d,左右孩子:
%d,编码为:
%s\n",
i,hfmnode[i].weight,hfmnode[i].parent,hfmnode[i].lchild,hfmnode[i].code);
}
start2=clock();//开始计时2
fseek(ifp,0,SEEK_SET);//将ifp指针移到文件开头位置
fwrite(&FileLength,4,1,ofp);//将FileLength写入目标文件的前4个字节的位置
fseek(ofp,8,SEEK_SET);//再将目标文件指针ofp移到距文件开头8个字节位置
codes[0]=0;
//将编码信息写入目标文件
while(!
feof(ifp))
{
fread(&c,1,1,ifp);
filelength++;
for(i=0;iif(c==hfmnode[i].ch)break;//ch必须也为unsigned型
strcat(codes,hfmnode[i].code);
while(strlen(codes)>=8)
{
for(i=0;i<8;i++)//将codes的前8位01代码表示的字符存入c
{
if(codes[i]=='1')
c=(c<<1)|1;
elsec=c<<1;
}
fwrite(&c,1,1,ofp);//将新的字符写入目标文件
sumlength++;
strcpy(codes,codes+8);//更新codes的值
}
if(filelength==FileLength)break;
}
//再将剩余的不足8位的01代码补全8位,继续写入
if(strlen(codes)>0)
{
strcat(codes,"00000000");
for(i=0;i<8;i++)
{
if(codes[i]=='1')
c=(c<<1)|1;
elsec=c<<1;
}
fwrite(&c,1,1,ofp);
sumlength++;
}
sumlength+=8;
printf("编码区总长为:
%ld个字节\n",sumlength-8);
//将sumlength和n的值写入目标文件,为的是方便解压
fseek(ofp,4,SEEK_SET);
fwrite(&sumlength,4,1,ofp);//把sumlength写进目标文件的第5-8个字节里
fseek(ofp,sumlength,SEEK_SET);
fwrite(&n,4,1,ofp);//把叶子数n写进编码段后面的4个字节的位置
//为方便解压,把编码信息存入n后面的位置
//存储方式为:
n*(字符值(1个字节)+该字符的01编码的位数(1个字节)+编码(字节数不确定,用count来计算总值))
for(i=0;i{
fwrite(&(hfmnode[i].ch),1,1,ofp);
c=hfmnode[i].CodeLength;//编码最长为256位,因此只需用一个字节存储
fwrite(&c,1,1,ofp);
//写入字符的编码
if(hfmnode[i].CodeLength%8!
=0)
for(j=hfmnode[i].CodeLength%8;j<8;j++)//把编码不足8位的在低位补0,赋值给C,再把C写入
strcat(hfmnode[i].code,"0");
while(hfmnode[i].code[0]!
=0)//开始存入编码,每8位二进制数存入一个字节
{
c=0;
for(j=0;j<8;j++)
{
if(hfmnode[i].code[j]=='1')
c=(c<<1)|1;
elsec=c<<1;
}
strcpy(hfmnode[i].code,hfmnode[i].code+8);//编码前移8位,继续存入编码
count++;//编码占的字节数的总值
fwrite(&c,1,1,ofp);
}
}
printf("\n");
finish2=clock();
duration2=(double)(finish2-start2)/CLOCKS_PER_SEC;
/*printf("写入目标文件用时为:
%fseconds\n",duration2);*/
printf("压缩用时为:
%fseconds\n",duration1+duration2);
speed=(float)FileLength/(duration1+duration2)/1000;
printf("\n压缩速率为:
%5.2fKB/S\n",speed);
printf("\n");
printf("源文件长度为:
%ld个字节\n",FileLength);
sumlength=sumlength+4+n*2+count;//计算压缩后文件的长度
printf("压缩后文件长度为:
%ld个字节\n",sumlength);
rate=(float)sumlength/(float)FileLength;
printf("压缩率(百分比)为:
%4.2f%%%\n",rate*100);
fclose(ifp);
fclose(ofp);
return;
}
//返回书签
//建立哈弗曼树中用于选择最小权值结点的函数
intselect(structnode*nodep,intpose)
{
inti;
ints1;
longmin=2147483647;//s初值为long型的最大值
for(i=0;i<=pose;i++)
{
if(nodep[i].parent!
=-1)continue;
if(nodep[i].weight{
min=nodep[i].weight;
s1=i;
}
}
returns1;
}
//返回书签
//哈弗曼编码函数
voidencode(structnode*nodep,intn)
{//从叶子向根求每个字符的哈弗曼编码
intstart;
inti,f,c;
charcodes[256];
codes[n-1]='\0';//编码结束符
for(i=0;i{
start=n-1;
for(c=i,f=nodep[i].parent;f!
=-1;c=f,f=nodep[f].parent)
{
start--;
if(nodep[f].lchild==c)
codes[start]='0';
elsecodes[start]='1';
}
strcpy(nodep[i].code,&codes[start]);
nodep[i].CodeLength=strlen(nodep[i].code);
}
}
//返回书签
//解压函数
voiduncompress()//解压文件
{
clock_tstart,finish;
doubleduration;
FILE*ifp,*ofp;
charinfile[20],outfile[20];
longFileLength,sumlength,filelength;
intn,m;
inti,j,k;
charbuf[256],codes[256];
unsignedcharc;
intmaxlength;
floatspeed;
printf("请输入要解压的文件名:
");
scanf("%s",infile);
ifp=fopen(infile,"rb");
if(ifp==NULL)
{
printf("文件名输入错误,文件不存在!
\n");
return;
}
printf("请输入目标文件名:
");
scanf("%s",outfile);
ofp=fopen(outfile,"wb");
if(ofp==NULL)
{
printf("文件名输入错误,文件不存在!
\n");
return;
}
start=clock();//开始计时
fread(&FileLength,4,1,ifp);//从压缩文件读出FileLength、sumlength
fread(&sumlength,4,1,ifp);
fseek(ifp,sumlength,SEEK_SET);//利用sumlength读出n的值
fread(&n,4,1,ifp);
printf("\n解码信息:
源文件长度为%d个字节,字符种类n=%d\n",FileLength,n);
for(i=0;i{
fread(&hfmnode[i].ch,1,1,ifp);//字符
fread(&c,1,1,ifp);//编码长度
hfmnode[i].CodeLength=c;
hfmnode[i].code[0]=0;
if(hfmnode[i].CodeLength%8>0)m=hfmnode[i].CodeLength/8+1;//m为编码占的字节数
elsem=hfmnode[i].CodeLength/8;
for(j=0;j{
fread(&c,1,1,ifp);//此处c为01编码转换成的字符
itoa(c,buf,2);//字符型编码转换成二进制型(首位为1)
//如果编码不够8位,则说明缺少了8-k位0,因此应先在前面空缺位写0
for(k=8;k>strlen(buf);k--)
{
strcat(hfmnode[i].code,"0");
}
//再把二进制编码存进hfmnode.code中
strcat(hfmnode[i].code,buf);
}
hfmnode[i].code[hfmnode[i].CodeLength]=0;//去掉编码中多余的0
}
//找出编码长度的最大值
maxlength=0;
for(i=0;iif(hfmnode[i].CodeLength>maxlength)
maxlength=hfmnode[i].CodeLength;
//开始写入目标文件
fseek(ifp,8,SEEK_SET);//指针指向编码区,开始解码
filelength=0;
codes[0]=0;
buf[0]=0;
while
(1)
{
while(strlen(codes){
fread(&c,1,1,ifp);
itoa(c,buf,2);//还原编码
for(k=8;k>strlen(buf);k--)
{
strcat(codes,"0");//把缺掉的0补上
}
strcat(codes,buf);//codes中此时存的为一串01编码
}
for(i=0;i{//在codes中查找能使其前weight位和hfmnode.code相同的i值,weight即为codelength
if(memcmp(hfmnode[i].code,codes,(unsignedint)hfmnode[i].CodeLength)==0)break;
}
strcpy(codes,codes+hfmnode[i].CodeLength);//更新codes的值
c=hfmnode[i].ch;
fwrite(&c,1,1,ofp);
filelength++;
if(filelength==FileLength)break;//写入结束
}
finish=clock();
duration=(double)(finish-start)/CLOCKS_PER_SEC;
printf("\n解压完成,解压用时为:
%fseconds\n",duration);
fseek(ifp,0,SEEK_SET);
FileLength=0;
while(!
feof(ifp))
{
fread(&c,1,1,ifp);
FileLength++;
}
FileLength--;
speed=(float)FileLength/duration/1000;
/*printf("此文件长度为:
%ld个字节\n",FileLength);*/
printf("\n解压速度为:
%5.2fKB/S\n",speed);
fclose(ifp);
fclose(ofp);
return;
}
2.2程序运行结果:
1.对文件xue.doc(45,056字节)进行压缩,压缩后存储在文件b.txt中,压缩速率为:
3003.73KB/S,压缩率为75.50%。
程序运行结果截图如下:
2.再对b.txt文件进行解压,目标文件为pp.doc,解压后的文件PP.doc与源文件xue.doc完全相同,解压速度为180.94KB/S。
程序运行结果如下:
2.3算法描述
(1)压缩文件
压缩文件时要先对源文件进行统计,统计字符的种类及出现的次数(即权值)。
统计完成之后,建立哈弗曼树:
每次选取权值最小且无parent的结点作为左右孩子,建成一棵二叉树,且设置新的二叉树的根结点的权值为其左右孩子的权值之和。
直至建成含有2*n-1个结点的哈弗曼树。
给每种字符进行编码。
按照从叶子到根的顺序求其编码。
算法和图示如下:
for(i=0;i{
start=n-1;
for(c=i,f=nodep[i].parent;f!
=-1;c=f,f=nodep[f].parent)
{
start--;
if(nodep[f].lchild==c)
codes[start]='0';
elsecodes[start]='1';
}
strcpy(nodep[i].code,&codes[start]);
}
编码完成之后,开始对源文件进行压缩。
1.从源文件读一个字符,从叶子结点中找出和此字符相同的字符结点,将其编码写入一个临时字符组codes;
2.当codes的长度大于等于8时,将其前8位转换成字符写入目标文件中;
3.重复1和2此过程,直至读完源文件中的所有字符;
4.若codes最后还有剩余的不足8位的01代码,则将其低位补0至8位,再写入目标文件。
同时为了便于解码,将源文件的长度FileLength、编码区的长度以及叶子结点的个数n、每个叶子结点的信息也存入目标文件。
存储方式如下图所示:
FileLength
4B
Sumlength
4B
源文件编码区
叶子数n
4B
叶子结点信息
字符值1B
字符的编码位数1B
字符的编码
...............
|——1个结点的信息——|
sumlength
(2)解压文件
从被压缩的文件中读出FileLength、n的值,以及每个叶子结点的信息:
字符、字符对应的编码。
开始解码:
1.从被压缩的文件编码区读出一个字符,将其值转化成二进制形式(不足8位的高位要补0),存入codes中,直至codes的长度不小于所有叶子结点的编码的长度;
2.用for循环查找出第一个和codes的01字符串匹配的叶子结点编码,将该叶子结点的字符写入目标文件,并将codes的字符串前移,前移位数=该叶子结点编码的长度。
3.重复1和2过程,直至写入的字符数与源文件的长度FileLength相同。