欢迎来到天天文库
浏览记录
ID:26555570
大小:51.50 KB
页数:5页
时间:2018-11-27
《蒙古文文本自动校对研究综述包》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、蒙古文文本自动校对研究综述包摘要:本文首先介绍了蒙古文文本错误产生的原因和类型以及蒙古文正字法规则,重点介绍了3种蒙古文文本自�有6苑椒ǎ喊�括基于词典与规则校对方法、基于有限状态自动机的校对方法、基于统计模型的校对方法等,最后探讨了蒙古文文本校对需要解决的问题和未来的发展方向。中国8/vie 关键词:蒙古文;自动校对;有限状态自动机;统计模型 中图分类号:TP311文献标识码:A:1009-3044(2016)35-0227-03 SurveyofMongolianTextAutomaticProofreading BAOinzuUniversityofChi
2、na,Beijing100081,China;2.HohhotMinzuCollege,Hohhot010051,China) Abstract:ThecausesandtypesofMongoliantexterrors,andMongolianorthographyarefirstpresented.Then,threekindsofMongoliantextautomaticproofreadingmethodsadoptedarefocused,includingbasedondictionaryandrules,basedonfinitestateautom
3、aton,andbasedonstatisticalmodelmethod.Finally,theproblemsneedtobesolvedandthefuturedevelopingdirectionsofMongoliantextautomaticproofreadingarediscussed. Keyaticproofreading;finitestateautomaton(FSA);statisticalmodel 随着蒙古文信息处理和互联网技术的发展,蒙古文语料库的规模也不断壮大。在对蒙古文进行词法分析、句法分析、语义分析时都需要高质量的标注语料库。由
4、于蒙古文自身的语法特点,存在着大量的形同音不同的词和音同形不同的词,这就要求录入人员具有较高的蒙古语语法知识才能准确地录入蒙古文文本。但是,目前很多人还不能完全掌握这些语法知识,录入的蒙古文文本中存在大量的错误,需要经过校对以后才能作为进一步研究的原始语料。 自动校对指的是程序按照一定的算法自动检查文本中的错误并对错误进行纠错或提供纠错建议[1]。 1蒙古文文本错误产生的原因和类型 1.1编码转换产生的错误 由于蒙古文标准化工作的滞后,在蒙古文Unicode国际标准编码发布以前已经在市场上出现了多种蒙古文编码,这些编码统称为非国际标准编码,其中常用的编码包括:蒙
5、科立编码、赛音编码、明安图编码、方正编码等。蒙科立、明安图和方正编码属于音形编码,赛音编码属于完全的形码,而Unicode国际标准编码则属于完全的音码。还有一个常用的蒙古文编码是拉丁编码,是由拉丁字母转写的编码,属于音码,它基本上能与Unicode国际标准编码一一对应,所以现在常用的蒙古文语料库都采用拉丁编码表示。 非国际标准编码存储的蒙古文转换为Unicode国际标准编码时,就会出现转换错误,因为这些编码并不是与Unicode国际标准编码一一对应,做不到完全正确的编码转换,所以转换成Unicode国际标准编码以后还需要校对。 1.2键盘录入产生的错误 目前,常见
6、的文字录入技术和方法主要有键盘录入、语音识别、文字识别和手写识别[2]。对于英文和中文以上四种方式录入的文本的正确率都很高,已达到应用要求,而对于蒙古文后三种识别技术还不能达到应用要求,所以键盘录入还是蒙古文的主要录入方式。蒙古文的原始语料基本上都是从键盘录入的。 现在人们常用的蒙古文输入法有蒙科立输入法、赛音输入法、明安图输入法、方正输入法和微软输入法(windows7/8/10)等。除了微软输入法,其他输入法虽然简单易用,但是只能输入非国际标准编码的蒙古文,而微软输入法则可以输入Unicode国际标准编码蒙古文。微软输入法在输入分写词缀、分写元音、特殊字母变体时都
7、需要使用不同的控制符,由于这些控制符的使用规则非常复杂,很多人滥用控制符而违反了蒙古文正字法规则,录入的词虽然在字形上完全正确,但是内部编码却是错误的。所以由微软输入法录入的Unicode国际标准编码蒙古文文本还需要校对以后才能使用。 1.3蒙古文文本错误类型 蒙古文文本错误的类型与英文相同,包含非词错误、真词错误和句法语义错误[1],真词错误和句法语义错误属于上下文相关的错误。目前,蒙古文文本自动校对研究主要集中在非词检查和纠错上,而蒙古文非词错误又包括字形错误和读音错误,分别称为字形非词和读音非词。其中读音非词是指字形正确但是读音
此文档下载收益归作者所有