开源中文分词器的比较研究

开源中文分词器的比较研究

ID:34645626

大小:7.53 MB

页数:68页

时间:2019-03-08

开源中文分词器的比较研究_第1页
开源中文分词器的比较研究_第2页
开源中文分词器的比较研究_第3页
开源中文分词器的比较研究_第4页
开源中文分词器的比较研究_第5页
资源描述:

《开源中文分词器的比较研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterComparativeResearchonOpen--SourceChineseWordSegmentationMachinesBy:YibiaoHuangSupervisor:QiangGuoInformationScienceDepartmentofInformationManagementMay.2013原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论

2、文不包含任何其他个人或集体己经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:蚩翌却学位论文使用授权声明日期:沙/;.pf2尸本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交为信访的复印件和电子版,允许为信访被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使

3、用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者.孝翼辟嗍%/多叶.沙摘要中文分词是中文信息处理的基础,随着人们对中文分词技术的不断深入研究,越来越多的中文分词器诞生了,开源为大家的学习和交流带了很多便利,然而问题也随之而来了,当我们有具体的应用需求时,面对这么多免费的开源分词器,究竟该如何选择呢?正是为了解决这个问题,本文从26个开源中文分词器中筛选了8个比较有代表性的作为研究对象,并针对不同的性能指标设计测试方案,进行比较测试,最终根据测试结果对选定的分词器进行比较

4、评价。分词准确率、分词速度、未登录词的识别和资源开销等都是衡量一个分词器优劣的评测标准。为了对这些标准进行测试,论文设计了5个测试。它们分别是分词效果测试、分词准确率测试、人名识别和地名识别测试、分词速度测试和资源开销测试。最后,通过对试验结果的对比分析,对选定的研究对象进行评价,为人们的应用选择提供参考。关键词:分词器中文分词语料库分词速度未登录词识别AbstractChinesewordsegmentationisthebasisofChineseinformationprocessing.WithChinesewordsegmentat

5、iontechnologycontinuestoin-depthstudy,moreandmoreChinesewordsegmentationmachinesborn.Theseopen-source—softwarebringalotofconvenienceforresearchandexchangesofChinesewordsegmentationmachines,howeverproblemsalsocome.ConfrontedwithSOmanyfleeChinesewordsegmentationmachines,howCa

6、nwechooseaccordingtothespecificapplicationwhenweneed?Inordertosolvethisproblem,Inthepapertheauthorselectedeightmorerepresentativeonesastheresearchobjectsfrom26open—sourceChinesewordsegmentationmachines.Basedondifferentevaluationcriteriontheauthorcomparedandanalyzedtheirperf

7、ormance.Andfinallybasedontheleveloftheirperformance,therankofthe8ChinesewordsegmentationmachinesWasmadeinordertoprovidereferenceforpeopletoselectabetterone.Wordaccuracy,wordsegmentingspeed,unknownwordrecognitionandresourceoverheadarealltheevaluationcriterionstomeasurethepro

8、sandconsoftheChinesewordsegmentationmachines’performanceInordertobetestedinaccorda

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。