欢迎来到天天文库
浏览记录
ID:57745379
大小:1.92 MB
页数:58页
时间:2020-03-27
《基于词典、规则与统计的蒙古文词切分系统的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、分类号UDC论文题目密级编号基于词典、规则与统计的蒙古文词切分系统的研究研究生:明玉指导教师:箧宏旭教授专业:i土篡扭型堂皇堇丕研究方向:智能信息处理所在学院._i土篡扭堂院2011年6月1日◆Il·’tI●■I》r穗寥扩}}、-㈣删㈣删㈣Y1887⋯4”3““6⋯”。。原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内蒙直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表
2、示谢意。学位论文作者签名:堕El期:兰!坠曼堕●指导教师签名:在学期间研究成果使用承诺书·本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、程序)属于‘内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学计
3、算机学院方可投稿或公开发表。学位论文作者签名:鳃至指导教师签名:日.期:塑些墨堕日期:/-内蒙古大学硕士学位论文基于词典、规则与统计的蒙古文词切分系统的研究摘要蒙古文是我国重要的少数民族语言文字之一。蒙古文信息处理技术的发展对蒙古族聚居区的政治、文化、生活的发展具有重要意义。蒙古文词切分系统是蒙古文信息处理众多后续工作的基础。本文首次尝试了在传统蒙古文上进行词切分,也首次尝试了将词典、规则与统计方法结合。本研究中,我们整理和校对了很多蒙古文语料及文档。这些资料可作为蒙古文信息处理后续工作的基础性资料。我们研究的蒙古文词切分系统得到了理想的词切分效率。本文提出的蒙古
4、文词切分测试平台,给出了统一的传统蒙古文词切分测试平台。本文深入研究了蒙古文的语法和特点,并提出了改进的层次化语言模型。该模型不仅考虑了语境关系,也强调了词内各成分的高耦合度。我们的词切分系统,首先预处理了部分蒙古文词。然后基于词典切分了大部分蒙古文词。最后对于剩余的蒙古文词,先用蒙古文的各种规则生成了多个候选集,再用改进的层次化蒙古文语言模型来选择正确的候选的词切分方案。通过三种方法的有机结合,发挥各自的优点,得到了性能优异的蒙古文词切分系统。关键词:蒙古文,词典,规则,统计基于词典、规则与统计的蒙古文词切分系统的研究ResearchingofMongolian
5、WordSegmentationSystemBasedOnDictionary,RulesandLanguageModelABSTRACTMongolianisoneoftheimportantminoritylanguagesin0111"count叫.ThedevelopmentofMongolianinformationprocessingtechnology,meanalottothedevelopmentofpolitics,culture,andsocietyinMongoliancommunities.ResearchingofourMongolia
6、nwordsegmentationsystemisthebasisofmanyfollow—upsof,theMongolianinformationprocessingwork.ThisarticleWasthefirsttryinthetraditional,Mongolianwordsegmentation,alsothefirsttimetriedtocombinethreedifferentmethods,say,dictionarybased,rulebasedandstatisticallanguagemodelbasedmethods.Thisst
7、udymadealotofefforttoorganizingandproofi'eadingMongoliancorpus.Thesedatawillbeofgreathe岫onthefuturework.OurresearchingofMongolianwordsegmentationsystemhadbeengetidealwordsegmentationefficiency.OurtestplatformofMongolianwordsegmentation,hadgiventheunifiedtestplatformtothetraditionalMon
8、golia
此文档下载收益归作者所有