基于规则的汉语兼类词标注方法研究

基于规则的汉语兼类词标注方法研究

ID:34131906

大小:4.94 MB

页数:70页

时间:2019-03-03

基于规则的汉语兼类词标注方法研究_第1页
基于规则的汉语兼类词标注方法研究_第2页
基于规则的汉语兼类词标注方法研究_第3页
基于规则的汉语兼类词标注方法研究_第4页
基于规则的汉语兼类词标注方法研究_第5页
资源描述:

《基于规则的汉语兼类词标注方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP301.6国际图书分类号:681.14西南交通大学研究生学位论文密级:公开基于规则的汉语兼类词标注方法研究年姓专二零一四年五月ClassifiedIndex:TP301.6U.D.C:681.14SouthwestJiaotongUniversityMasterDegreeThesisTHESTUDYOFRULE.BASEDCHINESEWORDSTAGGINGMETHODGrade:2011Candidate:HuadongLiSpeciality:ComputerSoftwareandTheorySupervisor:Prof.HongfenghrmMay,20

2、14西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版.,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1.保密口,在年解密后适用本授权书;2.不保密日,使用本授权书。。(请在以上方框内打“寸;)指导老师签名:—舌陵日期:~I眈歹·l2.鸡扎楞弋了宠十名℃鹤加者:作期文日论位学西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:(1)对中文

3、词性标注进行了全面深入的研究,针对传统模型在中文词性标注上标注准确率过低的问题,我们将词性标注规则与传统统计模型相结合,来改进词性标注效果。提出了一种新的词性标注规则挖掘方法,这种方法克服了传统词性标注规则获取方法的效率过低的问题,并且能够很好的改进我们的词性标注准确率。(2)针对中文词性标注特征选择的问题,在研究传统的统计词性标注模型时,也进一步研究了特征模板的选择问题,研究了不同的特征模板对词性标注准确率的影响,提出了自己的特征模板选择方法。(3)针对词性标注过程中的未登录词问题,提出了一种规则和统计相结合的解决方案,这种方案能够很好的对未登录词进行处理。本人郑重声明:所呈交的学位

4、论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:黼日期:妒忖、5、\L.西南交通大学硕士研究生学位论文第1页摘要汉语词性标注作为自然语言处理领域的基础性研究课题之一,近年来受到广泛的关注和深入的研究。词性标注的研究成果可为信息抽取、汉语语义分析等其它高层处理任务提供必要的基础,在实际的自然语言应用中起到至关重要的作用和影响。因此,本文以词性标注为研究目标,对其中的关键问

5、题做系统研究。目前,英文词性标注的准确率较高,用传统的统计模型即可解决,这是由英语的语法特点决定的。兼类词的标注准确率是影响词性标注准确率的决定性因素,英语兼类词词性的变化一般是随着词形的变化而变化的,而汉语兼类词就不存在有词形的变化了,这给我们统计模型带来了很大的困难,汉语词性标注的准确率就要比英语词性标注的准确率低很多。另外一个影响词性标注准确率的重要因素就是对未登录词的处理。未登录词就是在统计模型词典中未收录的词,当我们的词典到达一定规模的时候,未登录词就主要是一些命名实体词了,包括人名、地名、机构名等等。特征模板的选择也会影响词性标注的准确率,统计模型是根据特征模板来统计上下文

6、信息的,所以特征模板的设置也是很重要的。如何解决上述问题对汉语词性标注来说是至关重要的。目前,汉语词性标注主要分为三种方法,即统计、规则以及规则和统计相结合的方法,第三种方法结合了统计方法与规则方法的优缺点,能够很好的解决汉语词性标注问题。本文就是围绕第三种方法展开研究。本文主要做了以下几个方面的工作。首先,建立了隐马尔科夫模型、条件随机场模型、最大熵模型三种传统的统计模型,并用这三种模型对《人民日报》语料库进行词性标注,统计标注结果。同时,又对汉语词性标注的特征选择进行了研究,了解不同特征模板对汉语兼类词标注准确率的影响,从而确定了自己的特征模板选择方法。针对词性标注中未登录词的问题

7、,本文提出了自己的处理策略,即规则和统计相结合的方法,提高了词性标注的准确率。同时,对于传统的统计模型对汉语兼类词标注准确率不高的问题,引入了一种基于互信息的汉语词性标注规则挖掘方法,对规则挖掘进行了研究,并引入规则优先级算法解决规则冲突问题,最后将所得规则和统计模型相结合,实验结果表明,规则挖掘方法提高了词性标注的准确率。关键词:词性标注;互信息;特征模板;规则、西南交通大学硕士研究生学位论文第Ⅱ页AbstractChinesepartofs

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。