ImageVerifierCode 换一换
格式:DOCX , 页数:26 ,大小:1.04MB ,
资源ID:285835      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/285835.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(哈希表技术判别源程序的相似性实验报告.docx)为本站会员(b****0)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

哈希表技术判别源程序的相似性实验报告.docx

1、哈希表技术判别源程序的相似性实验报告哈希表技术判别两个源程序的相似性实验报告Windows 用户2014-12-26一.问题描述实验题目:对于两个 C 语言的源程序清单,用哈希表的方法分别统计两程序中使用C语言关键字的情况,并最终按定量的计算结果,得出两份源程序的相似性。 要求与提示:C 语言关键字的哈希表可以自建,也可以采用下面的哈希函数作为参考: Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41 表长m取43。此题的工作主要是扫描给定的源程序,累计在每个源程序中C语言关键字出现的频度。为保证查找效率,建议自建哈希表的平均查找长度不大于2。 扫描两个源程序所

2、统计的所有关键字不同频度, 可以得到两个向量。如下面简单的例子所示:根据程序1和程序2中关键字出现的频度,可提取到两个程序的特征向量X1和X2,其中X1= (4 3 0 4 3 0 7 0 0 2)TX2= (4 2 0 5 4 0 5 2 0 1)T一般情况下,可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性,相似值的判别函数计算公式为:最后的相似性判别计算可分两步完成: 第一步用式(3-1)计算S,把接近1的保留,抛弃接近。的情况(把不相似的排除); 第二步对保留下来的特征向量,再用式(3-2)计算D,如D值也比较小,说明两者 对应的程序确实可能相似(慎重肯定相似的)。 S和D

3、的值达到什么门限才能决定取舍?需要积累经验,选择合适的阑值。3)测试数据: 做儿个编译和运行都无误的C程序,程序之问有相近的和差别大的,用上述方法求S 并对比差异程度。4)输入输出:输入为若干个c源程序,输出为程序问的相似度以及向量的几何距离。基本要求:建立哈希表,统计源程序中关键字出现的频度,并计算多个源程序之间的相似度。测试数据:自己在网上找到一些C语言程序,分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。二需求分析1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似

4、度以及向量的几何距离。2.用户可以将源程序的.txt文件放入hashtable文件夹中,运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。三概要设计为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。 哈希表抽象数据类型的定义: ADT hashtable数据对象:D=ai|aiElemType,且各不相同,i=1,2.,n,n0 数据关系:R= 基本操作: Hashfunc(char str); Hashfind(char *words); creathash(void); resethash(int n);isletter(char

5、ch);readc(char * filename);getkey(char *str,int len);copycount(int x,int n);check(int *x1, int *x2);end ADT 3.本程序实现模块 主程序模块 哈希表程序模块:实现哈希表的抽象数据类型主程序模块哈希表程序模块计算相似度和向量的几何距离的模块 调用关系: 四详细设计1.各个子函数的设计1)创建哈希表函数 函数原型:void creathash(void); 输入:读取存储了32个关键字的文件ckey.txt 思路:通过对ckey.txt文件逐行赋值给创建的str字符数组,并将该数组调入Hash

6、func函数。 (2)将关键字根据哈希函数放入哈希表中的指定位置的函数 函数原型:void Hashfunc(char str); 思路:对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线性探索来解决冲突。(3)在哈希表中找是否该words为关键字,并统计频度的函数 函数原型:int Hashfind(char *words); 思路:将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1. (4)重置哈希表函数 函数原型:void resethash(int n); 功

7、能:当n为0时,将指向哈希表中关键字的指针置成Null,同时将频度全部置为0.而当n为1时,仅仅将频度置为0.(5)获取单词key的函数 函数原型:int getkey(char *str,int len); 思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。 (6)判断是否为字母的函数 函数原型:int isletter(char ch); 思路:如果调进来的ch字符的ASCII值在az或AZ范围内的话则返回1,否则返回0. (7)读取源程序文件中的单词的函数 函数原型:int readc(char * filename); 思路:为了读取

8、源程序文件中的单词,所以一个字符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。 (8)将频度拷贝到数组里的函数 函数原型:void copycount(int x,int n); 功能:将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。 (9)检查两个源程序是否相似的函数 函数原型:void check(int *x1, int *x2); 思路:对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。(10)取模

9、函数 函数原型:float Mol(int *x); 思路:通过求向量模值的数学知识求x数组的模 (11)点积函数 函数原型:int Dot(int *x1, int *x2); 思路:通过点积的数学知识对两个向量求点积 (12)求相似度S的函数 函数原型:float S(int *x1,int *x2); 思路:根据题目给的求相似度的公式求x1和x2数组的相似度 (13)求距离D的函数 函数原型:float D(int *x1, int *x2); 思路:用题目给的球几何距离的公式求x1和x2数组的几何距离2主函数伪码int main() char filename1=test1.txt;

10、char filename2=test12.txt; char filename3=test13.txt; int x1hashlen,x2hashlen,x3hashlen; /存储频度的数组,用于相似度S的计算 resethash(0); /完全重置哈希表,即哈希指针置为NULL,频度置为0 creathash(); /通过文件ckey.txt创建哈希表 readc(filename1); /读取第一个测试源程序文件 copycount(x1,hashlen); /讲统计好的频度复制给x数组 resethash(1); /仅仅将频度count置为0 readc(filename2); /同

11、上 copycount(x2,hashlen); resethash(1); readc(filename3); copycount(x3,hashlen); coutt哈希序号 t关键字 t频度1 t频度2 t频度3endl; for (int i = 0; i 41; i+) if(hashti.hash1!=NULL) coutti thashti.hash1 tx1i tx2i tx3iendl; coutfilename1和filename2的相似情况为:endl; check(x1,x2); /检查相似度 coutfilename1和filename3的相似情况为:endl; ch

12、eck(x1,x3); coutfilename2和filename3的相似情况为:endl; check(x2,x3); return 0;3.调用关系图main()resethashcreathashreadccopycountisletterhashfindhashfuncgetkeycheckDSDotMol五调试分析1.遇到的问题分析1)=与=的问题 赋值号与等号的问题虽然平时一直都会注意,但是有时候粗心也容易犯错,就比如在该语句中:if(fp=fopen(ckey.txt,r)=NULL)写成了if(fp=fopen(ckey.txt,r)=NULL),导致运行时出现下图看到过一本

13、讲编程的书说为了避免这种错误,可以#define = equal,这样就变成了if(fp=fopen(ckey.txt,r)equalNULL)。虽然这样确实可以避免该类错误,但是我觉的也没有太大的必要,只要平时注意点小心点就是了。而且如果在visual studio2012上编程时,一般是不允许出现fopen这种不安全函数的,要使用它推荐的fopen_s函数,使用如下2)第二个问题出现在creathash函数中,也比较难找。当时程序没有红色的那两句,while (fgets(str,size,fp)!=NULL) /读取一行写入一行 if (str=NULL) break; length=s

14、trlen(str); strlength-1=0; Hashfunc(str); fclose(fp);接下来的是没有那两句的运行后的窗口截图如果加上那两句红色的语句后的运行窗口就是这样的后来调试时发现,(就拿文件ckey.txt中的第一个关键字为例)在没有那两句红色语句时,调试窗口是这样显示的说明在执行逐行读取关键字的那段代码时,它把每一行的换行号也读进了str数组里,导致输出时,每个关键字都做了换行,便有了上面的第一个截图。所以我的解决办法就是加入红色的那两句,即length=strlen(str); strlength-1=0; 也就是把最后的换行号替换为0.3)第三个问题出现在readc函数中。在下面代码中原本没有注销的那一语句。所以导致这样的结果:即统计不到源程序文件中的关键字的频度,均显示为0.然后进行调试发现(就以读取到的第一个单词include为例):从调试窗口可看出读取完一个完整的单词后,它自

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1