中文信息处理文档格式.docx-资源下载

中文信息处理文档格式.docx

1、3. 掌握四种分词方法“词典正向最大匹配法、词典逆向最大匹配、基于确定文法的分词法、基于统计的分词方法”。二实验环境Win7 64位DEV-C+编译器三、实验内容与步骤1、词典正、逆向最大匹配法2、词典正、逆向最小匹配法3、邻近匹配4、最短路径匹配词典逆向最大匹配法，基本思路是：1、将词典的每个词条读入内存，最长是4字词，最短是1字词；2、从语料中读入一段（一行）文字，保存为字符串；3、如果字符串长度大于4个中文字符，则取字符串最右边的 4个中文字符，作为候选词；否则取出整个字符串作为候选词；4、在词典中查找这个候选词，如果查找失败，则去掉这个候选词的最左字，重复这步进行查找

2、，直到候选词为1个中文字符；5、将候选词从字符串中取出、删除，回到第3步直到字符串为空；6、回到第2步直到语料已读完。词典正向最大匹配法，基本思路是：3、如果字符串长度大于4个中文字符，则取字符串最左边的 4个中文字符，作为候选词；4、在词典中查找这个候选词，如果查找失败，则去掉这个候选词的最右字，重复这步进行查找，直到候选词为1个中文字符；邻近匹配，基本思路是：1、对于待切分的一段字符串C0 C1 C2Cn-1，根据C0 C1得到所有以C0 C1为首的词条集W，如果词条集为空，则将C0切分出来。2、否则取满足maxk|C0C1CkW的字符串C0C1Ck切分出来。3、然后将后面的

3、剩余字符串Ck+1 Cn-1作为新的待切分字符串进行同样的处理，直到待切分串为空为止。四、实验过程与分析逆向最大匹配法源代码：#include stringfstreamsstreamext/hash_mapiomanipstdio.htime.h#define MaxWordLength 12 / 最大词长字节（即4个汉字） #define Separator / 词界标记 #define UTF8_CN_LEN 3 / 汉字的UTF-8编码为3字节 using namespace std;using namespace _gnu_cxx;namespace _gnu_cxx templat

4、estruct hash size_t operator（）（ conststd:string& x ） const return hash（）（ x.c_str（））; ; hash_mapwordhash; / 词典 /读入词典void get_dict（void） string strtmp; /读取词典的每一行 string word; /保存每个词 typedef pairsipair;ifstreaminfile（CoreDict.txt.utf8）; if （!infile.is_open（） cerrUnable to open input file: word; /读入每行

5、第一个词 wordhash.insert（sipair（word, 1）; /插入到哈希中 infile.close（）;/删除语料库中已有的分词空格，由本程序重新分词 string del_space（string s1） int p1=0,p2=0;int count; string s2; while （p2 p1） s2 += s1.substr（p1,p2-p1）; p2+; p1=p2; else return s2;/用词典做逆向最大匹配法分词 string dict_segment（string s1） string s2 = ; /用s2存放分词结果 while （!s1.e

6、mpty（） intlen = （int） s1.length（）; / 取输入串长度 if （lenMaxWordLength） / 如果输入串长度大于最大词长 len = MaxWordLength; / 只在最大词长范围内进行处理 string w = s1.substr（s1.length（） - len, len）;int n = （wordhash.find（w） != wordhash.end（）; / 在词典中查找相应的词 while （len UTF8_CN_LEN & n = 0） / 如果不是词 len -= UTF8_CN_LEN; / 从候选词左边减掉一个汉字,将剩下

7、的部分作为候选词 w = s1.substr（s1.length（） - len, len）; n = （wordhash.find（w） ! w = w + Separator; s2 = w + s2; s1 = s1.substr（0, s1.length（） - len）;/中文分词，先分出数字 string cn_segment（string s1） /先分出数字和字母 int p1,p2; p1 = p2 = 0; while （ p2 = （s1.length（）-UTF8_CN_LEN） & （ s1.substr（p2,UTF8_CN_LEN）.at（0）9 ）/不是数字或字

8、母 p2 += UTF8_CN_LEN; s2 += dict_segment（s1.substr（p1,p2-p1）;/之前的句子用词典分词 /将数字和字母分出来 p1 = p2; p2 += 3; （ s1.substr（p2,UTF8_CN_LEN）.at（0）=s1.substr（p2,UTF8_CN_LEN）.at（0）4）&14） 14）/过滤非utf-8字符 count = 0; do count+; while（s1p214） 14） & p2 s1.length（）; s2 = s1.substr（p1,p2-count-p1）;/数字前的串 s3 += cn_segment

9、（s2） + s1.substr（p2-count,count） + Separator;/数字 if （p2 = s1.length（）/这个等号,当数字是最后一个字符时！ s1 = s1.substr（p2,s1.length（）-p2）;/剩余串 else if （p2 != 0） s3 += cn_segment（s1）; return s3;int main（intargc, char* argv） 1998-01-qiefen-file.txt.utf8 / 打开输入文件 infile.is_open（） / 打开输入文件失败则退出程序 argv1 ofstream outfile

10、1（result.txt.utf8 /确定输出文件 outfile1.is_open（） Unable to open file：SegmentResult.txt-bailing out! clock_t start, finish; double duration; start = clock（）;get_dict（）; finish = clock（）; duration = （double）（finish - start） / CLOCKS_PER_SEC;cout词典读入完毕，耗时 duration s /用于保存从语料库中读入的每一行 string line; /用于输出每一行的结

11、果正在分词并输出到文件，请稍候. while （getline（infile, strtmp） /读入语料库中的每一行并用最大匹配法处理 line = del_space（strtmp）; line = seg_analysis（line）; / 调用分词函数进行分词处理 outfile1 line / 将分词结果写入目标文件分词完毕，耗时 s分词结果保存在result.txt.utf8中。 return 0;邻近匹配CStringCSeg:NM（CString s） CStrs words; /以w为首的词条集 CString ret = while（!s.IsEmpty（） words

12、.clear（）; CString w; intlen = s.GetLength（）; if（len 4） w = s; else w = s.Left（4）; /取头两个字 words = myDic.GetWords（w）; /取得以w为首的词条集 int max = 1,k; for（inti = 0 ; i max） /长度最长且完全匹配 w = s.Left（k）; max = k; if（myDic.GetWordID（w） = -1） /头两个字不构成词 w = s.Left（2）; ret += w + SEP; s = s.Mid（w.GetLength（）; return ret;五、实验总结中文分词的基本处理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。常用的分词算法有正、逆向最大匹配,正、逆向最小匹配，邻近匹配，最短路径匹配。实验表明：对于汉语来说，逆向最大匹配法比最大匹配法更有效。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？