哈弗曼树的文件压缩和解压实验报告C语言.docx

上传人:b****3 文档编号:3765636 上传时间:2022-11-25 格式:DOCX 页数:17 大小:62.70KB
下载 相关 举报
哈弗曼树的文件压缩和解压实验报告C语言.docx_第1页
第1页 / 共17页
哈弗曼树的文件压缩和解压实验报告C语言.docx_第2页
第2页 / 共17页
哈弗曼树的文件压缩和解压实验报告C语言.docx_第3页
第3页 / 共17页
哈弗曼树的文件压缩和解压实验报告C语言.docx_第4页
第4页 / 共17页
哈弗曼树的文件压缩和解压实验报告C语言.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

哈弗曼树的文件压缩和解压实验报告C语言.docx

《哈弗曼树的文件压缩和解压实验报告C语言.docx》由会员分享,可在线阅读,更多相关《哈弗曼树的文件压缩和解压实验报告C语言.docx(17页珍藏版)》请在冰豆网上搜索。

哈弗曼树的文件压缩和解压实验报告C语言.docx

哈弗曼树的文件压缩和解压实验报告C语言

Lab05树结构的应用

学号:

姓名:

实验时间:

2011.5.24

1.问题描述

哈弗曼树的编码与译码

—功能:

实现对任何类型文件的压缩与解码

—输入:

源文件,压缩文件

—输出:

解码正确性判定,统计压缩率、编码与解码速度

—要求:

使用边编码边统计符号概率的方法(自适应Huffman编码)和事先统计概率的方法(静态Huffman编码)。

2.1程序清单

程序书签:

1.main函数

2.压缩函数

3.select函数

4.encode函数

5.解压函数

#include

#include

#include

#include

#include

structnode{

longweight;//权值

unsignedcharch;//字符

intparent,lchild,rchild;

charcode[256];//编码的位数最多为256位

intCodeLength;//编码长度

}hfmnode[512];

voidcompress();

voiduncompress();

//主函数

voidmain()

{

intchoice;

printf("请选择1~3:

\n");

printf("1.压缩文件\n");

printf("2.解压文件\n");

printf("3.退出!

\n");

scanf("%d",&choice);

if(choice==1)compress();

elseif(choice==2)uncompress();

elseif(choice==3)return;

elseprintf("输入错误!

");

}

//压缩函数

voidcompress()

{

inti,j;

charinfile[20],outfile[20];

FILE*ifp,*ofp;

unsignedcharc;//

longFileLength,filelength=0;

intn,m;//叶子数和结点数

ints1,s2;//权值最小的两个结点的标号

charcodes[256];

longsumlength=0;

floatrate,speed;

intcount=0;

clock_tstart1,start2,finish1,finish2;

doubleduration1,duration2;

voidencode(structnode*nodep,intn);//编码函数

intselect(structnode*nodep,intpose);//用于建哈弗曼树中选择权值最小的结点的函数

printf("请输入要压缩的文件名:

");

scanf("%s",infile);

ifp=fopen(infile,"rb");

if(ifp==NULL)

{

printf("文件名输入错误,文件不存在!

\n");

return;

}

printf("请输入目标文件名:

");

scanf("%s",outfile);

ofp=fopen(outfile,"wb");

if(ofp==NULL)

{

printf("文件名输入错误,文件不存在!

\n");

return;

}

start1=clock();//开始计时1

//统计文件中字符的种类以及各类字符的个数

//先用字符的ASCII码值代替结点下标

FileLength=0;

while(!

feof(ifp))

{

fread(&c,1,1,ifp);

hfmnode[c].weight++;

FileLength++;

}

FileLength--;//文件中最后一个字符的个数会多统计一次,所以要减一

hfmnode[c].weight--;

//再将ASCII转换为字符存入到结点的ch成员里,同时给双亲、孩子赋初值-1

n=0;

for(i=0;i<256;i++)

if(hfmnode[i].weight!

=0)

{

hfmnode[i].ch=(unsignedchar)i;

n++;//叶子数

hfmnode[i].lchild=hfmnode[i].rchild=hfmnode[i].parent=-1;

}

m=2*n-1;//哈弗曼树结点总数

j=0;

for(i=0;i<256;i++)//去掉权值为0的结点

if(hfmnode[i].weight!

=0)

{

hfmnode[j]=hfmnode[i];

j++;

}

for(i=n;i

{

hfmnode[i].lchild=hfmnode[i].rchild=-1;

hfmnode[i].parent=-1;

}

//建立哈弗曼树

for(i=n;i

{

s1=select(hfmnode,i-1);

hfmnode[i].lchild=s1;

hfmnode[s1].parent=i;

s2=select(hfmnode,i-1);

hfmnode[i].rchild=s2;

hfmnode[s2].parent=i;

hfmnode[i].weight=hfmnode[s1].weight+hfmnode[s2].weight;

}

//编码

encode(hfmnode,n);

finish1=clock();

duration1=(double)(finish1-start1)/CLOCKS_PER_SEC;

/*printf("哈弗曼树编码用时为:

%fseconds\n",duration1);*/

printf("编码完成,是否查看编码信息:

yorn?

\n");

c=getch();

if(c=='y')

{printf("\n");

printf("叶子数为%d,结点数为%d\n",n,m);

for(i=0;i

printf("%d号叶子结点的权值为:

%ld,双亲为:

%d,左右孩子:

%d,编码为:

%s\n",

i,hfmnode[i].weight,hfmnode[i].parent,hfmnode[i].lchild,hfmnode[i].code);

}

start2=clock();//开始计时2

fseek(ifp,0,SEEK_SET);//将ifp指针移到文件开头位置

fwrite(&FileLength,4,1,ofp);//将FileLength写入目标文件的前4个字节的位置

fseek(ofp,8,SEEK_SET);//再将目标文件指针ofp移到距文件开头8个字节位置

codes[0]=0;

//将编码信息写入目标文件

while(!

feof(ifp))

{

fread(&c,1,1,ifp);

filelength++;

for(i=0;i

if(c==hfmnode[i].ch)break;//ch必须也为unsigned型

strcat(codes,hfmnode[i].code);

while(strlen(codes)>=8)

{

for(i=0;i<8;i++)//将codes的前8位01代码表示的字符存入c

{

if(codes[i]=='1')

c=(c<<1)|1;

elsec=c<<1;

}

fwrite(&c,1,1,ofp);//将新的字符写入目标文件

sumlength++;

strcpy(codes,codes+8);//更新codes的值

}

if(filelength==FileLength)break;

}

//再将剩余的不足8位的01代码补全8位,继续写入

if(strlen(codes)>0)

{

strcat(codes,"00000000");

for(i=0;i<8;i++)

{

if(codes[i]=='1')

c=(c<<1)|1;

elsec=c<<1;

}

fwrite(&c,1,1,ofp);

sumlength++;

}

sumlength+=8;

printf("编码区总长为:

%ld个字节\n",sumlength-8);

//将sumlength和n的值写入目标文件,为的是方便解压

fseek(ofp,4,SEEK_SET);

fwrite(&sumlength,4,1,ofp);//把sumlength写进目标文件的第5-8个字节里

fseek(ofp,sumlength,SEEK_SET);

fwrite(&n,4,1,ofp);//把叶子数n写进编码段后面的4个字节的位置

//为方便解压,把编码信息存入n后面的位置

//存储方式为:

n*(字符值(1个字节)+该字符的01编码的位数(1个字节)+编码(字节数不确定,用count来计算总值))

for(i=0;i

{

fwrite(&(hfmnode[i].ch),1,1,ofp);

c=hfmnode[i].CodeLength;//编码最长为256位,因此只需用一个字节存储

fwrite(&c,1,1,ofp);

//写入字符的编码

if(hfmnode[i].CodeLength%8!

=0)

for(j=hfmnode[i].CodeLength%8;j<8;j++)//把编码不足8位的在低位补0,赋值给C,再把C写入

strcat(hfmnode[i].code,"0");

while(hfmnode[i].code[0]!

=0)//开始存入编码,每8位二进制数存入一个字节

{

c=0;

for(j=0;j<8;j++)

{

if(hfmnode[i].code[j]=='1')

c=(c<<1)|1;

elsec=c<<1;

}

strcpy(hfmnode[i].code,hfmnode[i].code+8);//编码前移8位,继续存入编码

count++;//编码占的字节数的总值

fwrite(&c,1,1,ofp);

}

}

printf("\n");

finish2=clock();

duration2=(double)(finish2-start2)/CLOCKS_PER_SEC;

/*printf("写入目标文件用时为:

%fseconds\n",duration2);*/

printf("压缩用时为:

%fseconds\n",duration1+duration2);

speed=(float)FileLength/(duration1+duration2)/1000;

printf("\n压缩速率为:

%5.2fKB/S\n",speed);

printf("\n");

printf("源文件长度为:

%ld个字节\n",FileLength);

sumlength=sumlength+4+n*2+count;//计算压缩后文件的长度

printf("压缩后文件长度为:

%ld个字节\n",sumlength);

rate=(float)sumlength/(float)FileLength;

printf("压缩率(百分比)为:

%4.2f%%%\n",rate*100);

fclose(ifp);

fclose(ofp);

return;

}

//返回书签

//建立哈弗曼树中用于选择最小权值结点的函数

intselect(structnode*nodep,intpose)

{

inti;

ints1;

longmin=2147483647;//s初值为long型的最大值

for(i=0;i<=pose;i++)

{

if(nodep[i].parent!

=-1)continue;

if(nodep[i].weight

{

min=nodep[i].weight;

s1=i;

}

}

returns1;

}

//返回书签

//哈弗曼编码函数

voidencode(structnode*nodep,intn)

{//从叶子向根求每个字符的哈弗曼编码

intstart;

inti,f,c;

charcodes[256];

codes[n-1]='\0';//编码结束符

for(i=0;i

{

start=n-1;

for(c=i,f=nodep[i].parent;f!

=-1;c=f,f=nodep[f].parent)

{

start--;

if(nodep[f].lchild==c)

codes[start]='0';

elsecodes[start]='1';

}

strcpy(nodep[i].code,&codes[start]);

nodep[i].CodeLength=strlen(nodep[i].code);

}

}

//返回书签

//解压函数

voiduncompress()//解压文件

{

clock_tstart,finish;

doubleduration;

FILE*ifp,*ofp;

charinfile[20],outfile[20];

longFileLength,sumlength,filelength;

intn,m;

inti,j,k;

charbuf[256],codes[256];

unsignedcharc;

intmaxlength;

floatspeed;

printf("请输入要解压的文件名:

");

scanf("%s",infile);

ifp=fopen(infile,"rb");

if(ifp==NULL)

{

printf("文件名输入错误,文件不存在!

\n");

return;

}

printf("请输入目标文件名:

");

scanf("%s",outfile);

ofp=fopen(outfile,"wb");

if(ofp==NULL)

{

printf("文件名输入错误,文件不存在!

\n");

return;

}

start=clock();//开始计时

fread(&FileLength,4,1,ifp);//从压缩文件读出FileLength、sumlength

fread(&sumlength,4,1,ifp);

fseek(ifp,sumlength,SEEK_SET);//利用sumlength读出n的值

fread(&n,4,1,ifp);

printf("\n解码信息:

源文件长度为%d个字节,字符种类n=%d\n",FileLength,n);

for(i=0;i

{

fread(&hfmnode[i].ch,1,1,ifp);//字符

fread(&c,1,1,ifp);//编码长度

hfmnode[i].CodeLength=c;

hfmnode[i].code[0]=0;

if(hfmnode[i].CodeLength%8>0)m=hfmnode[i].CodeLength/8+1;//m为编码占的字节数

elsem=hfmnode[i].CodeLength/8;

for(j=0;j

{

fread(&c,1,1,ifp);//此处c为01编码转换成的字符

itoa(c,buf,2);//字符型编码转换成二进制型(首位为1)

//如果编码不够8位,则说明缺少了8-k位0,因此应先在前面空缺位写0

for(k=8;k>strlen(buf);k--)

{

strcat(hfmnode[i].code,"0");

}

//再把二进制编码存进hfmnode.code中

strcat(hfmnode[i].code,buf);

}

hfmnode[i].code[hfmnode[i].CodeLength]=0;//去掉编码中多余的0

}

//找出编码长度的最大值

maxlength=0;

for(i=0;i

if(hfmnode[i].CodeLength>maxlength)

maxlength=hfmnode[i].CodeLength;

//开始写入目标文件

fseek(ifp,8,SEEK_SET);//指针指向编码区,开始解码

filelength=0;

codes[0]=0;

buf[0]=0;

while

(1)

{

while(strlen(codes)

{

fread(&c,1,1,ifp);

itoa(c,buf,2);//还原编码

for(k=8;k>strlen(buf);k--)

{

strcat(codes,"0");//把缺掉的0补上

}

strcat(codes,buf);//codes中此时存的为一串01编码

}

for(i=0;i

{//在codes中查找能使其前weight位和hfmnode.code相同的i值,weight即为codelength

if(memcmp(hfmnode[i].code,codes,(unsignedint)hfmnode[i].CodeLength)==0)break;

}

strcpy(codes,codes+hfmnode[i].CodeLength);//更新codes的值

c=hfmnode[i].ch;

fwrite(&c,1,1,ofp);

filelength++;

if(filelength==FileLength)break;//写入结束

}

finish=clock();

duration=(double)(finish-start)/CLOCKS_PER_SEC;

printf("\n解压完成,解压用时为:

%fseconds\n",duration);

fseek(ifp,0,SEEK_SET);

FileLength=0;

while(!

feof(ifp))

{

fread(&c,1,1,ifp);

FileLength++;

}

FileLength--;

speed=(float)FileLength/duration/1000;

/*printf("此文件长度为:

%ld个字节\n",FileLength);*/

printf("\n解压速度为:

%5.2fKB/S\n",speed);

fclose(ifp);

fclose(ofp);

return;

}

2.2程序运行结果:

1.对文件xue.doc(45,056字节)进行压缩,压缩后存储在文件b.txt中,压缩速率为:

3003.73KB/S,压缩率为75.50%。

程序运行结果截图如下:

2.再对b.txt文件进行解压,目标文件为pp.doc,解压后的文件PP.doc与源文件xue.doc完全相同,解压速度为180.94KB/S。

程序运行结果如下:

 

2.3算法描述

(1)压缩文件

压缩文件时要先对源文件进行统计,统计字符的种类及出现的次数(即权值)。

统计完成之后,建立哈弗曼树:

每次选取权值最小且无parent的结点作为左右孩子,建成一棵二叉树,且设置新的二叉树的根结点的权值为其左右孩子的权值之和。

直至建成含有2*n-1个结点的哈弗曼树。

给每种字符进行编码。

按照从叶子到根的顺序求其编码。

算法和图示如下:

for(i=0;i

{

start=n-1;

for(c=i,f=nodep[i].parent;f!

=-1;c=f,f=nodep[f].parent)

{

start--;

if(nodep[f].lchild==c)

codes[start]='0';

elsecodes[start]='1';

}

strcpy(nodep[i].code,&codes[start]);

}

编码完成之后,开始对源文件进行压缩。

1.从源文件读一个字符,从叶子结点中找出和此字符相同的字符结点,将其编码写入一个临时字符组codes;

2.当codes的长度大于等于8时,将其前8位转换成字符写入目标文件中;

3.重复1和2此过程,直至读完源文件中的所有字符;

4.若codes最后还有剩余的不足8位的01代码,则将其低位补0至8位,再写入目标文件。

同时为了便于解码,将源文件的长度FileLength、编码区的长度以及叶子结点的个数n、每个叶子结点的信息也存入目标文件。

存储方式如下图所示:

 

FileLength

4B

Sumlength

4B

源文件编码区

叶子数n

4B

叶子结点信息

字符值1B

字符的编码位数1B

字符的编码

...............

|——1个结点的信息——|

sumlength

(2)解压文件

从被压缩的文件中读出FileLength、n的值,以及每个叶子结点的信息:

字符、字符对应的编码。

开始解码:

1.从被压缩的文件编码区读出一个字符,将其值转化成二进制形式(不足8位的高位要补0),存入codes中,直至codes的长度不小于所有叶子结点的编码的长度;

2.用for循环查找出第一个和codes的01字符串匹配的叶子结点编码,将该叶子结点的字符写入目标文件,并将codes的字符串前移,前移位数=该叶子结点编码的长度。

3.重复1和2过程,直至写入的字符数与源文件的长度FileLength相同。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1