欢迎来到天天文库
浏览记录
ID:36769632
大小:1.21 MB
页数:65页
时间:2019-05-15
《基于避免交集型歧义的最大匹配算法改进的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要在当今信息化世界中,中文信息处理技术已经在各个领域中得到了广泛的应用。本文主要对中文分词算法中的基于分词词典机制的最大匹配算法进行研究讨论。由于中文语法语义复杂导致大量歧义字段的出现,文章中提出的最大匹配改进算法是针对分析原有的最大匹配算法的弊端以及避免交集型歧义字段在切分中出现错误而改进的,该算法在保证一定切分速率的基础上提高了中文切分的准确率。本文描述的中文分词算法是基于避免交集型歧义字段的最大匹配算法的改进算法。文中首先介绍了目前的中文分词算法,其中就常用的分词算法、分词词典机制以及歧义字段相关理论三部分来详细讲解目前中文分词算法的基本理论;其次根据已有分词词典机
2、制描述了基于Hash表的反向词典机制;在提出的反向分词词典机制的基础上改进了最大匹配算法,提出了基于避免交集型歧义的最大匹配算法的改进算法。最后论文中实现了简单的中文分词系统,此系统用来进行基于避免交集型歧义字段的最大匹配改进算法实验,并且用此系统把四种算法进行了实验比较。实验结果证明基于避免交集型歧义字段的最大匹配改进算法具有较好的性能和实用性。但是由于本实验没有涉及对于未识别词的识别问题,所以实验结果并没有达到目前标准的准确率。关键词:中文信息处理中文分词算法最大匹配算法分词词典机制交集型歧义字段AbstractIntoday'sinformationworld,the
3、Chineseinformationprocessinginvariouslargefieldshasbeenwidelyused.ThispaperfocusesonthemaximummatchingalgorithmresearchanddiscussionbasedonthedictionarymechanismontheChinesewordsegmentationalgorithm.BecauseoftheChinesesemanticcomplexity,alargenumberofambiguitywillappearafterChinesesegmenta
4、tion.Inthispaperthemaximummatchingimprovedalgorithmisbasedontheanalysisofthemaximummatchingalgorithmsoastoavoidambiguousphrasesofoverlaptypeinthesegmentationerrorandimproved,intheguaranteeratebasedonimprovedChinessesegmentationaccuracy.TheChinesewordsegmentationalgorithminthispaperisbasedo
5、navoidingoverlappingambiguitystringofthemaximummatchingalgorithm.Firstly,thispaperintroducesthecurrentChinesewordsegmentationalgorithm,itincludecommonlyusedinthewordsegmentationalgorithm,commonlyusedthedictionarymechanismaswellasthetheoryaboutambiguitytoexplainbasictheoriesoftheChineseword
6、segmentationalgorithm;SecondlythispaperdescribethereversedictionarymechanismbasedontheHashtableaccordingtotheexistingdictionarymechanism,themaximummatchingimprovedalgorithm,andthemaximummatchingimprovedalgorithmforavoidambiguousphrasesofoverlaptype.Thisalgorithm’saccuracyisimprovedbasedona
7、rangeofsegmentationrate.Finally,thispaperachievedthemaximunmatchingimprovedalgorithmandexperiment,theresultsthisalgorithmhasbetterperformanceimprovementandpracticality.Becauseoftheexperimentdosenotinvolvetheproblemofidentificationofword,sotheexperimentalresult
此文档下载收益归作者所有