ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注Word下载.docx
《ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注Word下载.docx》由会员分享,可在线阅读,更多相关《ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注Word下载.docx(7页珍藏版)》请在冰豆网上搜索。
则
w_1/w_2/.../w_k=argmax_{w_1'
/w_2'
/.../w_k'
}P(w_1'
w_2'
...,w_k'
)=argmax_{w_1'
)P(w_2'
)...P(w_k'
)
细节:
首先给原句按字划分,所有汉字一个一段,连续的字母,数字一段,比如"
始##始张华平2006欢迎您asdf末##末"
被划为"
始##始/张/华/平/2006/欢/迎/您/asdf/末##末"
接着找出这个句子中所有可能出现的词,比如"
出现的词有"
始##始"
"
张"
华"
平"
欢"
迎"
您"
末##末"
欢迎"
并查找这些词所有可能的词性和这些词出现的频率。
将这些词保存在一个结构中,具体实现如下:
m_segGraph中有一个(PARRAY_CHAIN)m_pHead,是一个链
(PARRAY_CHAIN)p->
row//记录该词的头位置
col//记录该词的末位置
value//记录该词的-log(出现的概率),出现的频率指所有该词的所有词性下出现的概率的总和。
nPos//记录该词的词性,比如人名标记为'
nr'
,则对应的nPos='
n'
*256+'
r'
如果该词有很多词性,则nPos=0
sWord//记录该词
nWordLen//记录该词的长度
举个例子:
0始##始1张2华3平4欢5迎6您7末##末8"
对于"
来说,
row=1
col=2
value=-log[("
出现的频率+1)/(MAX_FREQUENCE)]
nPos=0//"
有5种词性
sWord="
nWordLen=2
保存的顺序是按col升序row升序的次序排列
m_segGraph.m_pHead
m_segGraph.m_nRow=7
m_segGraph.m_nCol=8
然后是生成一幅给予各种组合情况的图,并按照出现的概率大小保存概率最大的前m_nValueKind个结果。
初始化,
(CNShortPath)sp.m_apCost=m_segGraph;
(CNShortPath)sp.m_nVertex=m_segGraph.m_nCol+1
(CNShortPath)sp.m_pParent=CQueue[m_segGraph.m_nCol][m_nValueKind]
(CNShortPath)sp.m_pWeight=ELEMENT_TYPE[m_segGraph.m_nCol][m_nValueKind]//m_pWeight[0][0]表示1处的weight
sp.ShortPath()函数中,
for(nCurNode=1;
nCurNode<
sp.m_nVertex;
nCurNode++)
{
CQueuequeWork;
//零时的CQueue
eWeight=m_apCost->
GetElement(-1,nCurNode,0,&
pEdgeList);
//取出col=nCurNode的第一个PARRAY_CHAIN的value,比如nCurNode=6,则pEdgeList指向"
eWeight="
pEdgeList->
value
while(pEdgeList&
&
col==nCurNode)//对每一个col=nCurNode的pEdgeList
for(i=0;
i<
m_nValueKind;
i++)
queWork.Push(pEdgeList->
row,0,eWeight+m_pWeight[pEdgeList->
row-1][i]);
//将所有col=nCurNode的pEdgeList按照其weight升序放到queWork中
}
}//比如
/*
m_pWeight[3][0]=0.2
eWight=0.2
=>
queWork.Push(4,0,0.4);
0始##始1张2华3平
4
欢
5
迎6您7末##末8"
m_pWeight[4][0]=0.5
eWight=0.1
queWork.Push(5,0,0.6);
m_pWeight[4][1]=0.6
queWork.Push(5,0,0.7);
queWork
0.4
0.6
0.7
*/
i++)m_pWeight[nCurNode-1][i]=INFINITE_VALUE;
//初始化当前的m_pWeight[nCurNode-1]
while(i<
m_nValueKind&
queWork.Pop(&
nPreNode,&
nIndex,&
eWeight)!
=-1)//从queWork中顺序取出每个pEdgeList的row,nIndex的取值从0到m_nValueKind-1,eWeight=pEdgeList->
m_pWeight[nCurNode-1][i]=eWeight;
//取前m_nValueKind个结果
m_pParent[nCurNode-1][i].Push(nPreNode,nIndex);
//按照pEdgeList->
value的升序,也就是P的降序放入m_pParent
得到m_pParent之后,按照m_pWeight[m_segGraph.m_nCol-1]的升序,生成path
CNShortPath:
:
GetPaths(unsignedintnNode,unsignedintnIndex,int**nResult,boolbBest)
//nNode=m_segGraph.m_nCol,nIndex从0取到m_nValueKind-1,nResult输出结果,bBest=true只输出最佳结果
比如"
的结果为
nResult[0]={0,1,2,3,4,6,7,8,-1}
始##始/张/华/平/欢迎/您/末##末"
nResult[1]={0,1,2,3,4,5,6,7,8,-1}
始##始/张/华/平/欢/迎/您/末##末"
没有第三种结果
取出所有nResult[i]作为分词结果,结果保存在m_graphOptimum中,m_graphOptimum和m_segGraph结构一样,只不过只存nResult[i]中的结果:
如果m_nValueKind=1则
m_graphOptimum.m_pHead
m_graphOptimum.m_nRow=7
m_graphOptimum.m_nCol=8
如果m_nValueKind=2则
见
boolCSegment:
GenerateWord(int**nSegRoute,intnIndex)这里的nSegRoute=上面的nResult,是输入参数;
nIndex表示第nIndex个分词结果
同时,CResult.m_Seg.m_pWordSeg[nIndex][k]中保存了第nIndex个结果的第k个词的信息:
CResult.m_Seg.m_pWordSeg[nIndex][k].sWord//词
CResult.m_Seg.m_pWordSeg[nIndex][k].nHandle//词性
CResult.m_Seg.m_pWordSeg[nIndex][k].dValue//-logP
至此,分词部分结束
二、posTagging
m_POSTagger.POSTagging(m_Seg.m_pWordSeg[nIndex],m_dictCore,m_dictCore);
//对第nIndex个分词结果用标准的字典标注
方便起见,下面假设m_nValueKind=1
m_POSTagger用HMM对分词进行标注,这里输出概率为P(w_i|c_i),c_i为词性,w_i为词;
转移概率为P(c_i|c_{i-1}),初始状态为P(c_0)即P("
的词性)
用维特比算法求出一个c_1/c_2/.../c_k=argmax_{c_1'
/c_2'
/.../c_k'
将句子分成若干段,每段以有唯一pos的w结尾,也就是分词中CResult.m_Seg.m_pWordSeg[0][k].nHandle>
0的那些词
比如,举个例子
0始##始1张
2
华
3
平
4
欢迎
5
您
6末##末7"
pos1
pos1
pos2
pos2
pos3
pos3
pos4
pos5
则该句被划分为
0始##始"
1张
平4
您"
6末##末"
对每一段用维特比算法确定一个唯一的postag
细节:
首先P(w,c)的输出概率存储在dict中,比如dictCore,dictUnknow,通过dict.GetFrequency(char*sWord,intnHandle)函数获取sWordpos为nHandle的函数
概率P(c)存储在context中,比如m_context,通过context.GetFrequency(intnKey,intnSymbol)函数获取pos为nSymbol的函数,nKey=0
转移概率P(c|c'
)存储在context中,比如m_context,通过context.GetContextPossibility(intnKey,intnPrev,intnCur)函数获取c'
=nPrev,c=nCur的转移概率,nKey=0
重要的数据结构
m_nTags[i][k]表示第i个w的第k个pos
在GetFrom函数中表示-log(第i个w的第k个pos的输出概率)
在CSpan:
Disamb()函数中
m_dFrequency[i][k]表示-log(从第0个w到第i个w的第k个pos的联合最大输出概率),比如
w_j
w_{j+1}
m_dFrequency[j][0]--
m_dFrequency[j+1][0]
m_dFrequency[j][1]
--
m_dFrequency[j+1][1]
--m_dFrequency[j+1][2]
则图中的路径的权为W([j,0]->
[j+1,2])=m_dFrequency[j][0]-log(m_context.GetContextPossibility(0,m_nTags[j][0],m_nTags[j+1][2]))
这样,选择
m_dFrequency[j+1][2]=min{W([j,0]->
[j+1,2]),W([j,1]->
[j+1,2])}
m_nCurLength表示当前段的w个数+1
在m_POSTagger.POSTagging中,以上面的例子为例
while(i>
-1&
pWordItems[i].sWord[0]!
=0)//将执行段的个数次,比如上例中将执行3次
i=GetFrom(pWordItems,nStartPos,dictCore,dictUnknown);
//i=GetFrom(pWordItems,0,dictCore,dictUnknown)=1
//i=GetFrom(pWordItems,1,dictCore,dictUnknown)=6
//i=GetFrom(pWordItems,6,dictCore,dictUnknown)=7
//从nStartPos向前取w,一直取到一个有唯一pos的w为止,该过程中记录每个w的pos,保存在m_nTags中,记录log(w|c)输出概率保存在m_dFrequency中
GetBestPOS();
//调用Disamb()函数,用维特比算法找出该段的最佳(联合输出概率最大)的标注,最佳路径保存在m_nBestTag中
通过读取m_nBestTag对pWordItems.nHandle进行赋值
人名识别,音译名识别,地名识别
其基本思路和PosTagging一样,只不过词性c换成了roler,以人名识别为例,首先识别出人名的tag(即pos),见
ChineseNamedEntityRecognitionUsingRoleModel"
在函数CUnknowWord:
Recognition(PWORD_RESULTpWordSegResult,CDynamicArray&
graphOptimum,CSegGraph&
graphSeg,CDictionary&
dictCore)中
每个被切开的段被识别完之后,用m_roleTag.POSTagging(pWordSegResult,dictCore,m_dict);
对第一步分词的结果进行一次标记。
首先用dictUnknown.GetHandle(m_sWords[i],&
nCount,aPOS,aFreq);
获得m_sWords[i]在NE词典中的role,
接着用dictCore.GetHandle(m_sWords[i],&
获得m_sWords[i]在标准词典中的tag,这里只要m_sWords[i]在标准词典中有tag,那么tag一律标记为0,该tag下的输出概率为P(w|c)=P(sum_{aFreq}|c=0)
接下来用SplitPersonPOS(dictUnknown)函数将其中tag为LH和TR的w拆成两个
张/SS华/GH平欢/TR迎/RC您/RC"
中"
平欢"
被拆成"
平/GT"
欢/12"
接着在PersonRecognize(dictUnknown);
函数中,用一些模板进行匹配,"
SS/GH/TR"
将匹配到"
张华平"
。
匹配得到的片断保存在m_nUnknownWords中,其nHandle被设置为人名,地名,音译名中的一个
对第一步中的graphOptimum,加入m_nUnknownWords的边:
graphOptimum.GetElement(nAtomStart,nAtomEnd,&
dValue,&
nPOSOriginal);
if(dValue>
m_roleTag.m_dWordsPossibility[i])//Settheelementwithlessfrequency
graphOptimum.SetElement(nAtomStart,nAtomEnd,m_roleTag.m_dWordsPossibility[i],m_nPOS);
四、重新分词
对上一步的graphOptimum,用第一步中对m_segGraph分词的方法,找出一个联合概率最大的分词结果:
m_Seg.OptimumSegmet(nCount);
五、重新标注
对于四中分好的结果,用标准词典对其进行posTagging:
for(nIndex=0;
nIndex<
m_Seg.m_nSegmentCount;
nIndex++)//m_Seg.m_nSegmentCount是第四步中的分词结果个数
最后,用Sort();
对标注结果按照联合输出概率的大小降序排序,并按照用户的需求输出前几个