综合最大匹配和歧义检测的中文分词粗分方法

综合最大匹配和歧义检测的中文分词粗分方法

ID:38275478

大小:375.60 KB

页数:5页

时间:2019-05-25

综合最大匹配和歧义检测的中文分词粗分方法_第1页
综合最大匹配和歧义检测的中文分词粗分方法_第2页
综合最大匹配和歧义检测的中文分词粗分方法_第3页
综合最大匹配和歧义检测的中文分词粗分方法_第4页
综合最大匹配和歧义检测的中文分词粗分方法_第5页
资源描述:

《综合最大匹配和歧义检测的中文分词粗分方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ComputerEngineering口4fc口f0计算机工程与应用2012,48(14)139综合最大匹配和歧义检测的中文分词粗分方法李国和1,2,3,刘光胜,秦波波’,吴卫江,李洪奇。,LIGuohe,,LIUGuangsheng,QrNBobo一,WUWeijiang,LIHongqi1.中国石油大学地球物理与信息工程学院,北京1022492-中国石油大学(北京)油气资源与探测国家重点实验室,北京1022493.石大兆信数字身份管理与物联网技术研究院,北京1000291~CollegeofGeophysicsandInformationEngineering

2、,ChinaUniversityofPetroleum,Beijing102249,China2.TheStateKeyLabofPetroleumResourceandProspecting,ChinaUniversityofPetroleum,Beijing102249,China3.PanPassInstituteofDigitalIdentificationManagementandIntemetofThings,Beijing100029,ChinaLIGuohe,LIUGuangsheng,QINBobo,eta1.MethodofChinesewor

3、droughsegmentationbymaximummatchandambiguitydetectionalgorithms.ComputerEngineeringandApplications,2012,48(14):139-142.Abstract:SegmentationofwordsinChinesetextisveryimportantpreprocessinginChineseinformationprocess—ing.Inpresent,forsomedemeritssuchaslowaccuracyofChinesewordsegmentati

4、onandbigsetofChinesewordroughsegmentation,amethod,CWRS,basedonmaximalmatchalgorithmisproposedalongwithomni-segmentationalgorithm.Itgreatlyimprovestheaccuracyandreducesthesetofroughsegmentationaccordingtocombinationofambiguitydetectionandcrossambiguitydetection,whichlaysthefoundationfo

5、rprecisesegmentationofwordsinChinesetext.AlltheexperimentsaregoodeffectsbycomparisonofCWRSwithotheralgorithmsonthesamedatasetofcommonChinesetexts.Keywords:Chinesewordsegmentation;roughsegmentation;maximummatchalgorithm;omni·segmentationalgo·-rithm:ambiguitydetection摘要:中文分词是中文文本信息处理的重要

6、预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。关键词:中文分词;粗分;最大匹配算法;全切分算法;歧义检测文章编号:1002—8331(2012)14.0139—04文献标识码:A中图分类号:TP3911引言要问题是切分歧义的识别和切分歧义的消除,即一中文文本的分词是中文文本信息处理中关键的个句子存在多个切分结果(即切分歧义),通过确定预处理u。由于

7、汉语中词与词之间没有分隔符,导致引起切分歧义的缘由(即切分歧义的识别),如组合汉字句子难于切分。中文分词中要解决的两个重歧义或交叉=歧义等,筛选出最终正确的切分结果基金项日:国家自然科学基金(No.60473125);国家高新技术研究发展计;~lJ(No.2009AA062802);中国石油(cNPc)石油科技中青年创新基金(No.05E70131;国家重大专项子课题(No.G5800.08.ZS.WX)。作者简介:李国和(1965一),男,博士,教授,博士生导师,主要研究领域为人工智能、知识发现;刘光胜(1985一),男,硕士研究生,主要研究领域为知识发现;秦波

8、波(198

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。