欢迎来到天天文库
浏览记录
ID:20836777
大小:84.50 KB
页数:10页
时间:2018-10-16
《基于字素分割的蒙古文手写识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于字素分割的蒙古文手写识别研究范道尔吉高光来武彗娟内蒙古大学计算机学院内蒙古大学电子信息工程学篋摘要:隐马尔科夫模型(IIMM)对序列数据有很强的建模能力,在语音和手写识别屮都得到了广泛的应用。利用H醒研宂蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1171个字母。通过相关性处理、n醒排序筛选等手段得到长字素集合,共包括378
2、个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hiddenMarkovmodeltoolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于11MM的蒙古文手写识别研宄奠定丫基础。关键词:蒙古文;字素;HMM;手写识别;作者简介:范道尔吉(1980—),博士研宄生,讲师,主要研宄领域为人工智能,模式识别与蒙古文信息处理。E-mail:fandaoe
3、rji@126.com作者简介:高光来(1964—),教授,主要研宂领域为人工智能,模式识别与蒙古文信息处理。E-mail:csggl@imu.edu.cn作者简介:武彗娟(1981—),硕士,讲师,主要研究领域为模式识别,蒙古文信息处理。E-mail:wuhj@imu.edu.cn收稿日期:2016-08-30基金:内蒙古自治区自然科学某金(2016MS0603)GraphemeSegmentationBasedMongolianHandwritingRecognitionFANDaoerjiGAOGuanglaiWUHu
4、ijuanCollegeofComputerScience,InnerMongoliaUniversity;CollegeofElectronicInformationEngineering,InnerMongoliaUniversity;Abstract:HiddenMarkovModels(HMM)hasstrongmodelingcapabilitiesforsequencedata,anditiswidelyusedinspeechrecognitionandhandwritingrecognitiontask.HM
5、M-bascdMongolianhandwritingrecognizersrequirethedatatobeanalyzedsequentially.AccordingtoMongolianwordformationandwritingstyle,itisevidentthataMongolianwordconsistsofgraphemeseamlessconnectedfromtoptodown.Theselectionofgraphemeandsegmentationwordtographemeisaprelimi
6、naryworkforhandwritingrecognitionwithsubstantialeffectsonrecognitionaccuracy.Inthispaper,accordingtoknowledgeofsyllablesandcoding,wecollectaMongolianletterssetof1171letters.Thelonggraphemesetwhichcontain378graphemeisthenextractedfromletterssetbycorrelationprocessan
7、dIIMMbasedsortingmethod.Theshortgraphemesetwhichcontain50shapesisextractedfromlonggraphemesetviadecomposelonggraphemebyhands.Wepresentanalgorithmtodecomposeawordtographemebytwolayersmapping.Experimentalresultsshowthattheshortgraphemegetbetterperformancethanlonggrap
8、heme.Keyword:Mongolian;grapheme;HMM;handwritingrecognition;Received:2016-08-301引言各种语言的手写体识别是人工智能领域最具有挑战性的研宂课题之一,主要包括脱机手写体识别和联机手写体识别。国外在文字识别领域较早地幵
此文档下载收益归作者所有