ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:18.15KB ,
资源ID:19734351      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19734351.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(中文信息处理文档格式.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

中文信息处理文档格式.docx

1、3. 掌握四种分词方法“词典正向最大匹配法、词典逆向最大匹配、基于确定文法的分词法、基于统计的分词方法”。二实验环境Win7 64位DEV-C+编译器三、 实验内容与步骤1、 词典正、逆向最大匹配法2、 词典正、逆向最小匹配法3、 邻近匹配4、 最短路径匹配词典逆向最大匹配法,基本思路是:1、 将词典的每个词条读入内存,最长是4字词,最短是1字词;2、 从语料中读入一段(一行)文字,保存为字符串;3、 如果字符串长度大于4个中文字符,则取字符串最右边的 4个中文字符,作为候选词;否则取出整个字符串作为候选词;4、 在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最左字,重复这步进行查找

2、,直到候选词为1个中文字符;5、 将候选词从字符串中取出、删除,回到第3步直到字符串为空;6、 回到第2步直到语料已读完。词典正向最大匹配法,基本思路是:3、 如果字符串长度大于4个中文字符,则取字符串最左边的 4个中文字符,作为候选词;4、 在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为1个中文字符;邻近匹配,基本思路是:1、 对于待切分的一段字符串C0 C1 C2Cn-1,根据C0 C1得到所有以C0 C1为首的词条集W,如果词条集为空,则将C0切分出来。2、 否则取满足maxk|C0C1CkW的字符串C0C1Ck切分出来。3、 然后将后面的

3、剩余字符串Ck+1 Cn-1作为新的待切分字符串进行同样的处理,直到待切分串为空为止。四、实验过程与分析逆向最大匹配法源代码:#include stringfstreamsstreamext/hash_mapiomanipstdio.htime.h#define MaxWordLength 12 / 最大词长字节(即4个汉字) #define Separator / 词界标记 #define UTF8_CN_LEN 3 / 汉字的UTF-8编码为3字节 using namespace std;using namespace _gnu_cxx;namespace _gnu_cxx templat

4、estruct hash size_t operator()( conststd:string& x ) const return hash()( x.c_str() ); ; hash_mapwordhash; / 词典 /读入词典void get_dict(void) string strtmp; /读取词典的每一行 string word; /保存每个词 typedef pairsipair;ifstreaminfile(CoreDict.txt.utf8); if (!infile.is_open() cerrUnable to open input file: word; /读入每行

5、第一个词 wordhash.insert(sipair(word, 1); /插入到哈希中 infile.close();/删除语料库中已有的分词空格,由本程序重新分词 string del_space(string s1) int p1=0,p2=0;int count; string s2; while (p2 p1) s2 += s1.substr(p1,p2-p1); p2+; p1=p2; else return s2;/用词典做逆向最大匹配法分词 string dict_segment(string s1) string s2 = ; /用s2存放分词结果 while (!s1.e

6、mpty() intlen = (int) s1.length(); / 取输入串长度 if (lenMaxWordLength) / 如果输入串长度大于最大词长 len = MaxWordLength; / 只在最大词长范围内进行处理 string w = s1.substr(s1.length() - len, len);int n = (wordhash.find(w) != wordhash.end(); / 在词典中查找相应的词 while (len UTF8_CN_LEN & n = 0) / 如果不是词 len -= UTF8_CN_LEN; / 从候选词左边减掉一个汉字,将剩下

7、的部分作为候选词 w = s1.substr(s1.length() - len, len); n = (wordhash.find(w) ! w = w + Separator; s2 = w + s2; s1 = s1.substr(0, s1.length() - len);/中文分词,先分出数字 string cn_segment(string s1) /先分出数字和字母 int p1,p2; p1 = p2 = 0; while ( p2 = (s1.length()-UTF8_CN_LEN) & ( s1.substr(p2,UTF8_CN_LEN).at(0)9 )/不是数字或字

8、母 p2 += UTF8_CN_LEN; s2 += dict_segment(s1.substr(p1,p2-p1);/之前的句子用词典分词 /将数字和字母分出来 p1 = p2; p2 += 3; ( s1.substr(p2,UTF8_CN_LEN).at(0)=s1.substr(p2,UTF8_CN_LEN).at(0)4)&14) 14)/过滤非utf-8字符 count = 0; do count+; while(s1p214) 14) & p2 s1.length(); s2 = s1.substr(p1,p2-count-p1);/数字前的串 s3 += cn_segment

9、(s2) + s1.substr(p2-count,count) + Separator;/数字 if (p2 = s1.length()/这个等号,当数字是最后一个字符时! s1 = s1.substr(p2,s1.length()-p2);/剩余串 else if (p2 != 0) s3 += cn_segment(s1); return s3;int main(intargc, char* argv) 1998-01-qiefen-file.txt.utf8 / 打开输入文件 infile.is_open() / 打开输入文件失败则退出程序 argv1 ofstream outfile

10、1(result.txt.utf8 /确定输出文件 outfile1.is_open() Unable to open file:SegmentResult.txt-bailing out! clock_t start, finish; double duration; start = clock();get_dict(); finish = clock(); duration = (double)(finish - start) / CLOCKS_PER_SEC;cout词典读入完毕,耗时 duration s /用于保存从语料库中读入的每一行 string line; /用于输出每一行的结

11、果 正在分词并输出到文件,请稍候. while (getline(infile, strtmp) /读入语料库中的每一行并用最大匹配法处理 line = del_space(strtmp); line = seg_analysis(line); / 调用分词函数进行分词处理 outfile1 line / 将分词结果写入目标文件 分词完毕,耗时 s分词结果保存在result.txt.utf8中。 return 0;邻近匹配CStringCSeg:NM(CString s) CStrs words; /以w为首的词条集 CString ret = while(!s.IsEmpty() words

12、.clear(); CString w; intlen = s.GetLength(); if(len 4) w = s; else w = s.Left(4); /取头两个字 words = myDic.GetWords(w); /取得以w为首的词条集 int max = 1,k; for(inti = 0 ; i max) /长度最长且完全匹配 w = s.Left(k); max = k; if(myDic.GetWordID(w) = -1) /头两个字不构成词 w = s.Left(2); ret += w + SEP; s = s.Mid(w.GetLength(); return ret;五、实验总结中文分词的基本处理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。常用的分词算法有正、逆向最大匹配,正、逆向最小匹配,邻近匹配,最短路径匹配。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1