基于mmseg算法的中文分词器的设计与实现

基于mmseg算法的中文分词器的设计与实现

ID:35178982

大小:2.08 MB

页数:70页

时间:2019-03-20

基于mmseg算法的中文分词器的设计与实现_第1页
基于mmseg算法的中文分词器的设计与实现_第2页
基于mmseg算法的中文分词器的设计与实现_第3页
基于mmseg算法的中文分词器的设计与实现_第4页
基于mmseg算法的中文分词器的设计与实现_第5页
资源描述:

《基于mmseg算法的中文分词器的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代号10532学号G132660546分类号密级工程硕士学位论文基于MMSEG算法的中文分词器的设计与实现学位申请人姓名刘岩培养单位软件学院导师姓名及职称谢伦浩副教授刘东润教授级高工学科专业软件工程研究方向传媒管理论文提交日期2016年4月15日学校代号:10532学号:G132660546密级:湖南大学工程硕士学位论文基于MMSEG算法的中文分词器的设计与实现学位申请人姓名:刘岩导师姓名及职称:谢伦浩副教授刘东润教授级高工培养单位:软件学院专业名称:软件工程论文提交日期:2016年4月15日论文答辩日期:2016年6月6日答辩委员会主席:李正良教授Designandimplementat

2、ionofChinesewordsegmentationbasedonMMSEGalgorithmbyLIUYanB.A.(HunanUniversity)2009AthesissubmittedinpartialsatisfactionoftherequirementsforthedegreeofMasterofscienceinSoftwareEngineeringintheGraduateschoolofHunanUniversitySupervisorAssociateprofessorXIELunhaoProfessorlevelseniorengineerLIUDongrunJun

3、e2016工程硕士学位论文学位论文原创性声明和学位论文版权使用授权书湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入

4、有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密□,在______年解密后适用本授权书。2、不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日I基于MMSEG算法的中文分词器的设计与实现摘要随着互联网的不断发展和繁荣,信息也开始呈现爆炸式的发展,整个互联网的信息量体量越来越庞大,这么大数据量对互联网公司来说都是极大的挑战,不论是信息的存储还是信息的查询。对于搜索引擎来说,其核心技术就是分词器。对于中文搜索来说其核心技术就是中文分词器。中文分词与英文分词有很大的区别,这样在中文本身的特点。如果有效进行中文分词,提

5、高分词正确率是亟待解决的重要问题。本文正是在这样的背景下提出了中文分词算法的研究,并给予算法进行中文分词器的实现。本文主要对MMSEG算法进行深入的研究,特别是它的复杂分词模式和歧义处理规则的分析。在此基础上结合Lucene搜索框架实现了中文分词器MMSEGAnalyzer。本文主要的工作内容如下:首先对Lucene搜索框架进行了深入的分析,这里包括Lucene的体系结构和索引技术,通过对Lucene的深入分析,为中文分词器MMSEGAnalyzer的设计提供了方法论。对当前的中文分词算法进行了深入的分析,尤其对中文分词当前的主要难题歧义分词进行归类和分析。然后对MMSEG中文分词算法进行了详

6、细的分析,这里主要从词典的实现方案、分词算法以及歧义消除规则。词典的实现方案目前主要有基于整词二分的词典构造、基于逐字二分的词典构造以及基于TRIE索引树的词典构造等。MMSEG算法目前的分词算法主要分为简单最大匹配算法和复杂最大匹配算法。最后对MMSEGAnalyzer中文分词器进行了详细的设计和实现。MMSEGAnalyzer中文分词器的实现也可分为四大块:词典管理模块、分词模块、分词歧义处理模块、Lucene接口管理模块。词典管理模块主要负责词典的存储、加载和解析,本文主要从词典加载、词典解析以及词典自动加载等三个方面展开了实现。分词歧义处理模块根据MMSEG算法的四大歧义处理规则实现的

7、,这些过滤规则在复杂最大匹配分词模块中使用。Lucene接口管理模块主要提供了MMSEGAnalyzer中文分词器对Lucene的分词器的接入,实现了对Lucene的集成。本文基于MMSEG分词算法实现了MMSEGAnalyzer中文分词器。MMSEGAnalyzer中文分词器通过Lucene可以很好的实现中文分词应用场景,很大提高了中文分词的准确率。关键词:MMSEG算法;词典;中文分词;分词器

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。