欢迎来到天天文库
浏览记录
ID:10093437
大小:39.00 KB
页数:14页
时间:2018-05-25
《基于基字识别的藏文音节字检错算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于基字识别的藏文音节字检错算法研究[摘要]在藏文音节字构件中基字占有重要的地位,只要准确的识别出基字的位置,可通过音节字的长度来获得其他构件,并以基字为核心来判断组成音节字其他构件的搭配是否符合规则。本文通过研究藏文音节字构件组合语法,提出了一种基于基字识别的藏文音节字检错算法。该方法不使用藏文音节字词典及大规模语料库的支撑。通过实验,该方法自动检错藏文音节字的正确率为97%。[关键词]藏文音节字;基字;自动检错中图分类号:TP391.1文献标识码:A文章编号:1009-914X(2014)42-0260-03Researc
2、honandetectionalgorithmoferrorTibetansyllablebasedonJizirecognitionCaiRangSanZhi,GAODingguo,Tashiigyal,GuanBai(TibetUniversity,Lhasa,Tibet850000,China)[Abstract]JiziplaysanimportantroleintheTibetansyllablecomponent.SolongasthepositionofJiziisrecognizedcorrectly,weca
3、ngetothercomponentsthroughthelengthofsyllableandtake14Jiziascoretojudgewhetherthecollocationofothercomponents,whichformssyllable,conformstorulescandetceterrorTibetansyllable.ThisarticleproposesanerrordetectionalgorithmofTibetansyllablebasedonJizirecognitionbyresearc
4、hingthecombinationgrammarofTibetansyllablecomponent.Andthismethoddoesn’tgetanysupportofTibetansyllabledictionariesandlarge-scalecorpus.Throughtheexperiments,thismethod’saccuracytodetectTibetansyllableautomaticallyis97%.[Keywords]Tibetansyllable;Jizi;automaticerrorde
5、tecting引言随着互联网及藏文信息技术的发展,出现了海量的藏文电子文本。这些电子文本在藏语语料库、机器翻译、信息检索、语音识别和语音合成等领域的研究中有着重要的作用。但这些电子文本的质量参差不齐,不能直接使用于研究。因此,在使用这些电子文本前,进行校对是一项重要的工作环节。14国外在文本校对研究方面起步较早,大约始于上世纪六十年代左右,其中英文文本的校对成果最为突出,大部分成果实现了产品化[7]。英文校对主要采用最小编辑距离和相似键技术以及自然语言统计技术等来实现的。最为常见的英文校对研究成果有office字处理软件中嵌入
6、的英文拼写检查功能。国内对汉文文本的校对研究始于二十世纪九十年代初期。汉文文本的校对主要采用基于混淆集的特征方法、基于模式匹配的校对方法和基于散串技术的校对方法等,与国内其他少数民族的文字校对技术相比,成绩最为突出,且部分校对技术成果已产品化。14藏文自动校对研究始于上世纪九十年代末,《一个藏文拼写检查系统的设计》是藏文自动校对方面的第一篇文章。藏文属拼音文字,但与同属拼音文字的西文有着很大的区别,藏文独特的语法体系、书写方式和文化背景等造就了与其他拼音文字之间的差异。因此,其他较为先进的拼音文字校对方法、策略和技术等不能直接
7、用于藏文文本校对中。研究藏文文本校对需立足于藏文字本身的组合规则、语法特点、发展规律和使用习惯等方面进行研究。藏文自动校对技术在近十几年的发展中取得了一些成果,但主要是以词典匹配为主。基于词典匹配的校对有以下局限性:1)语言是个动态现象,每时每刻都发生着变化,尤其词汇方面的发展和变化最为突出。2)藏文音节字的组合是由特定的语法规则来完成的,但目前实际使用的符合语法规则的藏文音节字的数量小于依照藏语语法所能组合的音节字的总和。因此,在本文中采用藏文语法规则来检错藏文音节字,可弥补基于词典匹配的校对方面存在的一些不足。1.藏文音节
8、字组合规则藏文字在上千年的发展和演变过程中形成了迄今使用的文字概貌。藏文语法典籍《三十颂》和《音势论》是目前最为权威的藏文语法典籍。本文就这两部语法典籍及主要注疏为依据,对组成藏文音节字的构件组合规则及unicode藏文编码在计算机中的处理方法进行深入分析和研究,提出一种基于
此文档下载收益归作者所有