基于统计的汉语自动分词与词性标注歧义消解方法研究

基于统计的汉语自动分词与词性标注歧义消解方法研究

ID:36645710

大小:2.27 MB

页数:55页

时间:2019-05-13

基于统计的汉语自动分词与词性标注歧义消解方法研究_第1页
基于统计的汉语自动分词与词性标注歧义消解方法研究_第2页
基于统计的汉语自动分词与词性标注歧义消解方法研究_第3页
基于统计的汉语自动分词与词性标注歧义消解方法研究_第4页
基于统计的汉语自动分词与词性标注歧义消解方法研究_第5页
资源描述:

《基于统计的汉语自动分词与词性标注歧义消解方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔棋下业大学不学硕1:学位论文摘要汉语自动分词和词性标注是自然语言处理和计算语言学领域中的主要内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实文本处理的迫切需要,对分词和词性标注的要求也显得日益迫切,由于它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域的研究,因此,一直引起人们的关注。同其它语言相比,汉语的自动分词和词性标注有其特有的难点。目前,汉语自动分词和词性标注的处理结果往往不尽人意。木文从汉语自动分词和词性标注的歧义消解这一

2、基本问题入手,进行了统计方法框架下汉语自动分词和词性标注一体化模型的探索.具体的讲,本文从以卞几个方面进行了研究:I对歧义问题,本文在考察了一阶隐马尔可夫模型(HMM)常见的分词词性标注错误及其分布规律的基础上,提出了一种改进的汉语自动分词和词性标注一体化模型。其签本思想是,对于发射概率,将信息的来源从传统一阶HMM只考虑当前词节点的信息,扩展到该节点前面的1个词的词性信息和前面k个词的词形信息。另外、对于词性转移概率的计算,也从原先的二元文法上升到兰元文法。由于引入了更多的上下文信息,该模型具有

3、较高的精确率。a针对上述模型在实际应用中的数据稀疏现象,本文采用了适当的方法进行数据平滑,进一步提商分词词性标注的精度。具体来说,对于三元词性转移概率和发射概率,采用线性插值方法进行平滑,对于其中的参数又,采用了一种无需训练而直接根据一元、二元、三元对的同现次数来确定的方法。3针对汉语分词过程中数词的识别和转换问题进行研究,通过对汉语数词进行详细的分析,探索出一种自动识别和翻译汉语数词的方法,通过换算,将各种形式书写的数词自动转换成统一的格式。然后系统分析了实际应用中的二词分词歧义问题,并探讨了二

4、词分词歧义的处理策略。最后,综合运用本文所研究的各种方法,实现了一个支持多部用户词典的、基于多步处理策略的汉语自动分词词性标注系统。关键词汉语自动分词:词性标注;歧义消解:隐=3尔可夫模型哈尔演工业人学丁学1311:学位论文AbstractAutomaticChinesesegmentationandpart-of-speechtaggingisakeytaskinnaturallanguageprocessing(NLF)andcomputationallinguistics.Itsresear

5、chandapplicationareofgreattheoreticalandpracticalsignificance.Withtheincreasingdemandonautomaticalnaturallanguageprocessing,high-accuracyChinesesegmentationandpart-of-speechtaggingbecomesindispensablesinceitsresultdirectlyaffectsmanyapplicationslikepa

6、rsing,semanticanalysis,speechrecognition,machinetranslation,informationretrieval,informationfilteringandsoonComparingwith。比.languages,automaticsegmentationandpart-of-speechtaggingofChinesehasitsowndifficulty.Currently,theresultsofautomaticChinesesegme

7、ntationandpad-of-speechtaggingarestillnotquitesatisfying.ThisdissertationbeginswithabasicproblemofambiguityresolutioninautomaticChinesesegmentationandpart-of-speechtagging,soastoframeanintegratedstatisticalmodelofChinesesegmentationandpart-of-speechta

8、gging.Indetail,面sdissertationhasconducted伽followingresearches:t.Asfortheambi州ty,thisdissertationputsforwardanimprovedintegrativemodelofautomaticChinesesegmentationandpart-of-speechtaggingonthebasisofthereviewofthecommonmistakesandtheirdistribu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。