ImageVerifierCode 换一换
格式:DOCX , 页数:15 ,大小:167.48KB ,
资源ID:5855922      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5855922.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(天津科技大学数据结构与算法课程设计报告源程序的相似性.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

天津科技大学数据结构与算法课程设计报告源程序的相似性.docx

1、天津科技大学数据结构与算法课程设计报告源程序的相似性数据结构与算法课程设计报告设计题目:源程序的相似性专 业 计算机科学与技术 学 号 * 姓 名 傅开煤 2017 年 1 月 10 日源程序的相似性一、问题描述对于两个C+语言的源程序代码,用哈希表的方法分别统计两个程序中使用C+语言关键字的情况,并最终按定量的计算结果,得出两份程序的相似性。二、需求分析建立C+语言关键字的哈希表,统计在每个源程序中C+关键字出现的频度, 得到两个向量X1和X2,通过计算向量X1和X2的相对距离来判断两个源程序的相似性。 例如: 关键字 Void Int For Char if else while do b

2、reak class 程序1关键字频度 4 3 0 4 3 0 7 0 0 2 程序2关键字频度 4 2 0 5 4 0 5 2 0 1 X1=4,3,0,4,3,0,7,0,0,2 X2=4,2,0,5,4,0,5,2,0,1 设s是向量X1和X2的相对距离,s=sqrt( (x1i-x2i) 2 ),当X1=X2时,s=0,反映出可能是同一个程序;s值越大,则两个程序的差别可能也越大。三、概要设计 为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。 哈希表抽象数据类型的定义: ADT hashtable 数据对象:D=ai|aiElemType,且各不相同,i=1,2

3、.,n,n0 数据关系:R= 基本操作:Hashfunc(char str); Hashfind(char *words); creathash(void); resethash(int n);isletter(char ch);readc(char * filename);getkey(char *str,int len);copycount(int x,int n);check(int *x1, int *x2);end ADT 本程序实现模块 主程序模块 哈希表程序模块:实现哈希表的抽象数据类型 调用关系图如下: 计算相似度和向量的几何距离的模块四、详细设计 1、各个子函数的设计 (1)

4、创建哈希表函数 函数原型:void creathash(void); 输入:读取存储了32个关键字的文件keyword.txt 思路:通过对keyword.txt文件逐行赋值给创建的str字符数组,并将该数组调入Hashfunc函数。 (2)将关键字根据哈希函数放入哈希表中的指定位置的函数 函数原型:void Hashfunc(char str); 思路:对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线性探索来解决冲突。 (3)在哈希表中找是否该words为关键字,并统计频度的函数函数原型:int Hashfind(char *words);思

5、路:将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1。 (4)重置哈希表函数函数原型:void resethash(int n);功能:当n为0时,将指向哈希表中关键字的指针置成Null,同时将频度全部置为0.而当n为1时,仅仅将频度置为0。 (5)获取单词key的函数函数原型:int getkey(char *str,int len);思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。 (6)判断是否为字母的函数 函数原型:int isletter(char

6、ch);思路:如果调进来的ch字符的ASCII值在az或AZ范围内的话则返回1,否则返回0。 (7)读取源程序文件中的单词的函数 函数原型:int readc(char * filename);思路:为了读取源程序文件中的单词,所以一个字符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。 (8)将频度拷贝到数组里的函数函数原型:void copycount(int x,int n);功能:将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。 (9)检查两个源程序是否相似的函数函数原

7、型:void check(int *x1, int *x2);思路:对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。 (10)取模函数函数原型:float Mol(int *x);思路:通过求向量模值的数学知识求x数组的模。 (11)点积函数函数原型:int Dot(int *x1, int *x2)思路:通过点积的数学知识对两个向量求点积。 (12)求相似度S的函数 函数原型:float S(int *x1,int *x2); 思路:根据题目给的求相似度的公式求x1和x2数组的相似度。 (13)求距离D的函数函数原型:f

8、loat D(int *x1, int *x2);思路:用题目给的球几何距离的公式求x1和x2数组的几何距离。2、主函数伪码int main() char filename1=test1.txt; char filename2=test2.txt; char filename3=test3.txt; int x1hashlen,x2hashlen,x3hashlen; /*存储频度的数组,用于相似度S的计算*/ resethash(0); /*完全重置哈希表,即哈希指针置为NULL,频度置为0*/ creathash(); /通过文件ckey.txt创建哈希表 readc(filename1)

9、; /读取第一个测试源程序文件 copycount(x1,hashlen); /讲统计好的频度复制给x数组 resethash(1); /仅仅将频度count置为0 readc(filename2); /同上 copycount(x2,hashlen); resethash(1); readc(filename3); copycount(x3,hashlen); coutt哈希序号 t关键字 t频度1 t频度2 t频度3endl; for (int i = 0; i 41; i+) if(hashti.hash1!=NULL) coutti thashti.hash1 tx1i tx2i tx

10、3iendl; coutfilename1和filename2的相似情况为:endl; check(x1,x2); /检查相似度 coutfilename1和filename3的相似情况为:endl; check(x1,x3); coutfilename2和filename3的相似情况为:endl; check(x2,x3); return 0;3、调用关系图 调用关系图如下:五、编码实现1.使用函数void resethash(int n)来重置哈希表void resethash(int n) /重置哈希表 if(n=0) /完全重置哈希表 for(int i=0;i41;i+) hasht

11、i.hash1=NULL; hashti.count=0; else if (n=1) /仅仅重置频度 for(int i=0;i41;i+) hashti.count=0; 2.使用void copycount(int x,int n)来将频度拷贝到数组里的函数void copycount(int x,int n) /拷贝频度 for (int i = 0; i n; i+) xi=hashti.count; 3.使用int getkey(char *str,int len)来获取单词key的函数int getkey(char *str,int len) /根据哈希函数获取该单词的key c

12、har key1,key2; int key; key1=str0; key2=strlen-1; key=(int)(key1*100+key2)%41; return key;4.使用void creathash(void)来创建哈希表函数void creathash(void) /对文件keyword.txt中的32个关键字创建哈希表 FILE *fp; int length; char strsize; /暂时存储关键字字符的数组 char *s=NULL; for (int i = 0; i size; i+) stri=0; if(fp=fopen(keyword.txt,r)=N

13、ULL) coutcant creat file!n; exit(0); while (fgets(str,size,fp)!=NULL) /读取一行写入一行 if (str=NULL) break; length=strlen(str); strlength-1=0; /调试后发现的,没有这里就停止运行了 Hashfunc(str); fclose(fp);5.使用void Hashfunc(char str)来将关键字根据哈希函数放入哈希表中的指定位置的函数void Hashfunc(char str) /将关键字根据哈希函数放入哈希表中的指定位置 int key,len; len=str

14、len(str); key=getkey(str,len); while (hashtkey%41.hash1!=NULL) key+; /线性探索 hashtkey%41.hash1=(char*)malloc(sizeof(char)*(len+1); strcpy(hashtkey%41.hash1,str); 6.使用int Hashfind(char *words)来在哈希表中找是否该words为关键字,并统计频度的函数int Hashfind(char *words) /在哈希表中找是否该words为关键字,并统计频度 int key,len,find; len=strlen(wo

15、rds); key=getkey(words,len); while(hashtkey.hash1=NULL)key+; key=key%41; if(strcmp(hashtkey.hash1,words)=0) hashtkey.count+; return 1; for(find=key+1;findhashlen;find+) /*如果不在key位置则向往后线性查找,然后再从头找*/ /线性探查法顺序查找哈希表中是否已存在关键字 if(hashtfind.hash1!=NULL) if(strcmp(hashtfind.hash1,words)=0) hashtfind.count+;

16、 return 1; for(find=0;findkey;find+) if (hashtfind.hash1!=NULL) if(strcmp(hashtfind.hash1,words)=0) hashtfind.count+; return 1; return 0;7.使用int readc(char * filename)来读取源程序文件中的单词的函数int readc(char *filename) /读取源程序文件中的单词 FILE *fp1=NULL; char wordsmaxlen,ch; int i; if(fp1=fopen (filename,r)=NULL) cou

17、tcan not creat file!n; exit(0); while (!feof(fp1) /结束返回1 i=0; ch=fgetc(fp1); /一个字符一个字符的读 while (isletter(ch)=0&feof(fp1)=0) ch=fgetc(fp1); while (isletter(ch)=1&feof(fp1)=0) if (i=maxlen) while (isletter(ch)=1&feof(fp1)=0) ch=fgetc(fp1); i=0; break; /超过最大关键字长度将会跳过当前识别区域,读取下一个单词 else wordsi+=ch; ch=f

18、getc(fp1); wordsi=0; Hashfind (words); /*将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度*/ fclose(fp1); return 0;8.使用float Mol(int *x)来取模函数float Mol(int *x) /取模函数 int i = 0, sum = 0; for (i = 0; i N; i+) sum += (xi * xi); return (float)pow(float)sum,0.5);int Dot(int *x1, int *x2) /点积函数 int i = 0, sum = 0; for (

19、i = 0; i N; i+) sum += x1i * x2i; return sum;9.使用float S(int *x1,int *x2)、float D(int *x1, int *x2) 和void check(int *x1, int *x2)来分别求相似度S的函数、求几何距离D函数和检查两个源程序是否相似的函数float S(int *x1,int *x2) return Dot(x1, x2)/(Mol(x1)*Mol(x2); /求相似度Sfloat D(int *x1, int *x2) /求几何距离 int xN, i = 0; for (i = 0; i N; i+)

20、 /向量相减 xi= x1i - x2i; return Mol(x); /再求模void check(int *x1, int *x2) float xs = 0, xd = 0; xs = S(x1, x2); cout相似度xs=xs Smax) /先判断S,若S大于阈值再计算几何距离 xd = D(x1, x2); cout几何距离xd=xdendl; if (xd Dmin) /如果几何距离小于阈值则判断为相似 cout 这两个文件内容确实可能相似endl; else cout 这两个文件内容可能不相似endl; return; cout 这两个文件内容不相似endl; /否则不相似

21、 return;六、实验结果与分析实验上机测试结果如下图所示:分析:实验上机运行结果与实际结果相符,即可以认为该程序是正确无误的。七、总结 在本次的课程设计上机操作的时候,在调试每个模块设计的时候,有些模块由于本人的粗心大意把=与=的问题弄混淆了,使调试出现了报错。这是由于本人平时没有注意区分赋值号与等号的问题的原因,使有时候粗心容易犯错,就比如在该语句中:if(fp=fopen(ckey.txt,r)=NULL)写成了if(fp=fopen(ckey.txt,r)=NULL),我曾经看到过一本讲编程的书说为了避免这种错误,可以#define = equal,这样就变成了if(fp=fopen

22、(ckey.txt,r)equalNULL)。虽然这样确实可以避免该类错误,但是我觉的也没有太大的必要,只要平时注意点小心点就是了。而且如果在新的版本的Visual Studio上编程时,一般是不允许出现fopen这种不安全函数的,要使用它推荐的fopen_s函数比较安全一点,也可以在使用到例如sprintlf这种比较旧的指令,需要强制关闭Microsoft Visual Studio的安全检查,需要在代码最前面加上#define _CRT_SECURE_NO_WARNINGS指令。还有,通过本次的课程设计,使我更进一步的体会到了数据结构和算法课程的重要性。这两门课程的目的与要求是学会从问题入手,分析和研究计算机加工的数据结构特性,使大家能够为他们应用的数据选择适当的逻辑结构、存储结构及其相应的操作算法,并初步掌握算法的性能分析技术。同时,学习中还要进行复杂的程序设计训练,也培养了大家数据抽象能力、算法构造性思维方法能力及逻辑思维能力,这些能力也是软件系统开发过程中非常重要的一种创造性思维活动。为大家从事理论研究、应用开发、技术管理工作提供了坚实的理论基础和解决实际问题的程序设计的能力,这有利于大家今后适应学科迅速的发展和知识不断更新的步划。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1