基于避免交集型歧义的最大匹配算法改进的研究与实现

基于避免交集型歧义的最大匹配算法改进的研究与实现

ID:36769632

大小:1.21 MB

页数:65页

时间:2019-05-15

基于避免交集型歧义的最大匹配算法改进的研究与实现_第1页
基于避免交集型歧义的最大匹配算法改进的研究与实现_第2页
基于避免交集型歧义的最大匹配算法改进的研究与实现_第3页
基于避免交集型歧义的最大匹配算法改进的研究与实现_第4页
基于避免交集型歧义的最大匹配算法改进的研究与实现_第5页
资源描述:

《基于避免交集型歧义的最大匹配算法改进的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要在当今信息化世界中,中文信息处理技术已经在各个领域中得到了广泛的应用。本文主要对中文分词算法中的基于分词词典机制的最大匹配算法进行研究讨论。由于中文语法语义复杂导致大量歧义字段的出现,文章中提出的最大匹配改进算法是针对分析原有的最大匹配算法的弊端以及避免交集型歧义字段在切分中出现错误而改进的,该算法在保证一定切分速率的基础上提高了中文切分的准确率。本文描述的中文分词算法是基于避免交集型歧义字段的最大匹配算法的改进算法。文中首先介绍了目前的中文分词算法,其中就常用的分词算法、分词词典机制以及歧义字段相关理论三部分来详细讲解目前中文分词算法的基本理论;其次根据已有分词词典机

2、制描述了基于Hash表的反向词典机制;在提出的反向分词词典机制的基础上改进了最大匹配算法,提出了基于避免交集型歧义的最大匹配算法的改进算法。最后论文中实现了简单的中文分词系统,此系统用来进行基于避免交集型歧义字段的最大匹配改进算法实验,并且用此系统把四种算法进行了实验比较。实验结果证明基于避免交集型歧义字段的最大匹配改进算法具有较好的性能和实用性。但是由于本实验没有涉及对于未识别词的识别问题,所以实验结果并没有达到目前标准的准确率。关键词:中文信息处理中文分词算法最大匹配算法分词词典机制交集型歧义字段AbstractIntoday'sinformationworld,the

3、Chineseinformationprocessinginvariouslargefieldshasbeenwidelyused.ThispaperfocusesonthemaximummatchingalgorithmresearchanddiscussionbasedonthedictionarymechanismontheChinesewordsegmentationalgorithm.BecauseoftheChinesesemanticcomplexity,alargenumberofambiguitywillappearafterChinesesegmenta

4、tion.Inthispaperthemaximummatchingimprovedalgorithmisbasedontheanalysisofthemaximummatchingalgorithmsoastoavoidambiguousphrasesofoverlaptypeinthesegmentationerrorandimproved,intheguaranteeratebasedonimprovedChinessesegmentationaccuracy.TheChinesewordsegmentationalgorithminthispaperisbasedo

5、navoidingoverlappingambiguitystringofthemaximummatchingalgorithm.Firstly,thispaperintroducesthecurrentChinesewordsegmentationalgorithm,itincludecommonlyusedinthewordsegmentationalgorithm,commonlyusedthedictionarymechanismaswellasthetheoryaboutambiguitytoexplainbasictheoriesoftheChineseword

6、segmentationalgorithm;SecondlythispaperdescribethereversedictionarymechanismbasedontheHashtableaccordingtotheexistingdictionarymechanism,themaximummatchingimprovedalgorithm,andthemaximummatchingimprovedalgorithmforavoidambiguousphrasesofoverlaptype.Thisalgorithm’saccuracyisimprovedbasedona

7、rangeofsegmentationrate.Finally,thispaperachievedthemaximunmatchingimprovedalgorithmandexperiment,theresultsthisalgorithmhasbetterperformanceimprovementandpracticality.Becauseoftheexperimentdosenotinvolvetheproblemofidentificationofword,sotheexperimentalresult

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。