欢迎来到天天文库
浏览记录
ID:56029005
大小:415.42 KB
页数:5页
时间:2020-06-19
《基于改进最大匹配算法的中文分词粗分方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1242014,50(2)ComputerEngineeringandApplications~~算机工程与应用基于改进最大匹配算法的中文分词粗分方法周俊,郑中华,张炜ZHOUJun,ZHENGZhonghua2,ZHANGWei1.华中科技大学模具技术国家重点实验室,武汉4300742.中国人民大学教育学院,北京1008723.安徽博约信息科技有限责任公司,合肥2300881.StateKeyLabofMoldTechnology,HuazhongUniversityofScienceandTechnology,Wuhan430074,China
2、2.SchoolofEducation,RenminUniversityofChina,Beijing100872,China3.AnhuiBoryouInformationTechnologyCo.Ltd,Hefei230088,ChinaZHOUJun,ZHENGZhonghua,ZHANGWei.MethodofChinesewordsroughsegmentationbasedonimprovingmaximummatchalgorithm.ComputerEngineeringandApplications,2014,50(2):124-
3、128.Abstract:ChinesewordsroughsegmentationandambiguityresolutionaretwofundamentalprocessesofChinesewordsegmentation.Undertheintroductionofgeneralizedtermandinducedwordset,amethodusedforChinesewordsroughsegmentationisproposedbasedonmaximummatchingmethod.ItexecutesChinesewordseg
4、mentationundertheprincipleofthelongestgeneralizedtermmatching,andrecognizestheoverlappingambiguitiesbyutilizinginducedwordset.Itseg—meritsChinesesentenceswithoutanyambiguityrapidlyandaccurately,detectsandmarksambiguitiesby100percentinthosesentenceswhichhaveambiguities,whichwil
5、lsimplifytheprocessofambiguityresolutiontothemaximumextent.TheresultoftheexperimentonPeople’SDailycorpusinJanuary1998whichcontains1.6millionChinesecharactersshowsthemethodiseffectivebothinspeedandaccuracy.Keywords:Chinesewordssegmentation;maximummatch;generalizedterm;inducedwo
6、rdset摘要:中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。关键词:中文分词;最大匹配;广义词;诱导词集文献标志码:A中图分类号:TP391.12doi:10.3778~.issn
7、.1002.8331.1203.0002l引言词的序列,即中文分词。目前技术较成熟、使用较广的汉语语言是由连续汉字组成的序列,汉字是汉语的中文分词方法主要包括机械分词法和基于统计的分基本构成元素,即词素,然而汉语中具有完整语义信息词法”。。的最小单元是词,且汉语自然语言的句法、语义和语境机械分词法是基于词串匹配的分词方法,其优点是分析,静态、动态语义网构建,以及搜索引擎倒排索引建分词速度快,算法简单且易于实现,但是不具备歧义处立等技术的处理和分析对象都是词。因此,中文自然语理能力,分词效果较差;基于统计的分词法则通过统计言处理的第一步就是将由汉字连
8、续组成的字串切分为语料库中汉字共现频率等相关信息,定量描述汉字之间基金项目:国家自然科学基金(No.70773052)。作
此文档下载收益归作者所有