汉语组块识别.pdf

汉语组块识别.pdf

ID:53909611

大小:232.69 KB

页数:6页

时间:2020-04-27

汉语组块识别.pdf_第1页
汉语组块识别.pdf_第2页
汉语组块识别.pdf_第3页
汉语组块识别.pdf_第4页
汉语组块识别.pdf_第5页
资源描述:

《汉语组块识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第25卷第2期东北大学学报(自然科学版)VoI.25,No.22004年2月JournaIofNortheasternUniversit(yNaturaIScience)Feb.2004=============================================================文章编号:1005-302(62004)02-0114-04汉语组块识别李珩,谭咏梅,朱靖波,姚天顺(东北大学信息科学与工程学院,辽宁沈阳110004)摘要:提出一种基于增益的隐马尔科夫模型(transductiveHMM)的方法,用于汉语组块(ChineseChunk)识别的研究·该方法

2、借助几个转换函数,导入各种上下文信息用于HMM的训练,避免对HMM训练和标注过程修改的同时,构造了更为准确的模型,并在此基础上,将其中两个较好的模型融合为一个更好的模型·实验结果显示,该方法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=82.38%·关键词:汉语组块;识别;隐马尔科夫模型;增益的隐马尔科夫模型;模型训练;转换函数中图分类号:TP391.1文献标识码:A文本组块识别作为句法分析的预处理阶段,1增益的隐马尔科夫模型通过将文本划分成一组互不重叠的片断,来达到(TransductiveHMM)降低句法分析的难度,这些片断是非递归的,即片断不能嵌套,这些片断定义为

3、Chunk[1]所谓的隐马尔科夫模型是一个四元组,〈S1,·请看一个文本组块的例子:S,W,E〉,S16S是初始状态,S={S1,S2,⋯,S!}[PPUnder][NPtheexistingcontract],[NP是状态集,也称为隐藏层,W={w1,w2,⋯,ww}RockweII][VPsaid],[NPit][VPhasaIready为输出符号表,称为观察层·deIivered][NP793][PPof][theshipsets][PPto]E为状态转移函数{pS,t},S,t6S,满足[NPBoeing]·ZpS,t=1,VS6S·当然,也可以通过为Chunk加标记来表示文t6S[

4、2]另外还有两个概率函数·状态概率函数:":S本组块·采用I0B2的标注集合,该标注集合包含3种类型的标记:B-X表示Chunk类型为X,并。[0,1],满足Z"(S)=1;S6S且是该Chunk的起始词,I-X表示Chunk类型为输出符号函数概率函数{JS:W。[0,1]},S6X,并且是该Chunk的非起始词,0表示不在任何S,满足ZJ(Sw)=1,VS6S·Chunk内的词·于是,上述的例子也可以表示如w6W下:!"!基于#$$的标注Under/B-PPthe/B-NPexisting/I-NPcontract/令0和I分别代表输出序列和输入序列,则I-NP,/0RockweII/B-

5、NPsaid/B-VP,/0it/B-NP标注问题可视为计算以下条件概率的极大值:^has/B-VPaIready/I-VPdeIivered/I-VP793/B-NP0=argmaxP(0I)=0of/B-PPthe/B-NPshipsets/I-NPto/B-PPBoeing/P(II0)P(0)argmax(1)B-NP./00P(I)·这样,文本组块识别过程也可以看成对文本式中,P(0II)是已知输入序列I的情况下,出现进行Chunk标注过程·目前,应用于文本组块的输出序列0的条件概率·式中符号argmax表示0方法包括,基于转换的学习[3],基于记忆的学通过考察不同的候选输出序列0

6、,来寻找使条件习[4],隐马尔科夫模型[5~7],最大熵模型[8],支持概率取最大值的那个输出序列0^·向量机[9]等·考虑到分母P(I)对给定的I是一个常数,收稿日期:2003-06-02基金项目:国家自然科学基金和微软亚洲研究院联合资助项目(60203019)·作者简介:李珩(1975-),男,辽宁沈阳人,东北大学博士研究生;姚天顺(1934-),男,江苏扬州人,东北大学教授,博士生导师·第2期李珩等:汉语组块识别115不影响极大值的计算,可以从公式中删除·接着根{(wi-pOSi,pOSi-ci)wi"Wt;据二阶马尔科夫假设(SecondorderMarkov(pOSi,pOSi-c

7、i)wi#Wt·assumption),式(1)可以转成式(2)其中,wt集合的选取将在下节论述(见2.2)·argmax!p(iiOi)p(OiOi-1,Oi-2)·(2)于是,将上述几个转换函数代入到式(2)中,就得到0i:1,⋯,I据文献[10]报道,上述公式成功应用到词性标注了几个增益的隐马尔科夫模型,分别是:模型1:中,标注准确率达到了96%左右·文本组块识别过程也可以看成是Chunk标注过程,这样

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。