基于有限状态自动机的蒙古文同形词校对方法的研究

基于有限状态自动机的蒙古文同形词校对方法的研究

ID:34056416

大小:2.91 MB

页数:55页

时间:2019-03-03

基于有限状态自动机的蒙古文同形词校对方法的研究_第1页
基于有限状态自动机的蒙古文同形词校对方法的研究_第2页
基于有限状态自动机的蒙古文同形词校对方法的研究_第3页
基于有限状态自动机的蒙古文同形词校对方法的研究_第4页
基于有限状态自动机的蒙古文同形词校对方法的研究_第5页
资源描述:

《基于有限状态自动机的蒙古文同形词校对方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDCTP391.1论文题目密级编号10126.31109008研究生:廑述一一一指导教师:丑亟数援专业:让篡扭型堂皇堇丕研究方向:自然适宣处堡所在学院:让篡扭堂暄2014年5月1日原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也L不包含为获得凼莹直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:叠!垫日期:2Qf生61竖在学期间研究成果使用承诺书本学位论文作者完全了解学

2、校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、程序)属于内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。学位论文作者签名:日期:内蒙古大学硕士学位论文基于有限状态自动机的蒙古文同形词校对方法的研究摘要随着蒙古文信

3、息处理技术的发展,研究内容越来越深入,如何保证文本的正确性,显得越来越重要。因此,校对的工作量也随之增大,对于飞速增长的电子文本,人工校对的方法已经无法满足,蒙古文文本自动校对已成为一个亟待解决的问题。蒙古文是一种拼音文字,区别于其它拼音文字的是,在书写时,蒙古文使用变形显现字符来表示文字。输入者常常把那些形状相同读音不同的变形显现字符错误地录入到单词中,这种现象被称为形同音异现象。从字形上看,该单词是正确的,可是它内部的编码是错误的。在多数情况下,计算机是按照字符编码识别词汇的,如果不纠正这些错误,将使蒙古文信息处理的研究变得更加困难。检查非词错误的传统有效方法是查找词典,如果指定

4、单词不在词典中,则认为非词。然而,蒙古语是粘着性语言,拼音文字,多数构词都是由词根或词干连接不同的后缀来实现的。词典中包含的单词数量有限,为扩大词汇的覆盖面,可使用词典结合于构词规则的方法,这也是处理粘着性语言时常用的方法。本文将词典和构词规则融合到有限状态自动机模型中,介绍了一种基于有限状态自动机的蒙古文同形词校对方法。首先,以《蒙古文正字法词典》为依据,根据蒙古语单词的语法特征以及词的结构,构造词法分析器。然后蒙古文国际标准编码基本字符集、传统蒙古文名义字符的变形显现字符以及变形规则,建立同形字符规则库。最后,根据同形字符规则库,在词法分析器上进行基于有限状态自动机的蒙古文同形词

5、校对方法的研究启发式搜索,如果输入单词正确,则不做任何处理;如果输入单词错误,则用与其同形的单词对其纠错。关键词:蒙古文;同形词;有限状态自动机;拼写校对II内蒙古大学硕士学位论文RESEARCHoNPROOFREADINGALGoRITHMoFMONGOLIANHoMoGRAPHBASEDoNFINITESTATEAUToMATAABSTRACTWiththedevelopmentofMongolianinformationprocessingtechnology,theresearchcontentismoreandmoredeeply,howtoensurethecorrect

6、nessofthetextbecomesmoreandmoreimportant.Therefore,workloadofproofreadingincreasesgreatly,manualcorrectionmodehasbeenunabletoadapttotherapidgrowthofthenumberofelectronictexts,automaticproofreadingofmongoliantexthasbecomeanurgentproblemtobesolved.Mongolianisanalphabeticwriting,unlikeotheralphabe

7、ticwriting,Mongolianusepresentationcharactertoexpresstextinwriting.Writersoftenwronglyinputpresentationcharacterwiththesameshapebutdifferentpronunciationtoword,whichwecallthesameshapebutdifferentpronunciationphenomenon.Thiswordisc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。