现代藏文中词的自动校对方法研究

现代藏文中词的自动校对方法研究

ID:31373750

大小:106.50 KB

页数:5页

时间:2019-01-09

现代藏文中词的自动校对方法研究_第1页
现代藏文中词的自动校对方法研究_第2页
现代藏文中词的自动校对方法研究_第3页
现代藏文中词的自动校对方法研究_第4页
现代藏文中词的自动校对方法研究_第5页
资源描述:

《现代藏文中词的自动校对方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、现代藏文中词的自动校对方法研究  摘要:藏文文本的自动校对是藏文信息处理的主要应用领域之一,现代藏文词的自动校对是其中重要的关键技术之一。本文根据藏文词错误的类型,分别提出了对应的校对方法。对非词错误,采用分词切分和散串匹配处理方法。对于真词错误,主要检查词的二元接续关系和词性邻接关系,均取得了较好的校对效果。  关键词:藏文文本;自动校对;非词;真词  中图分类号:TP18文献标识码:A文章编号:1009-3044(2016)19-0200-02  ResearchforModernTibeta

2、nWordAutomaticProofreadingMethod  LIUFang,GUANBai  (TibetanInformationTechnologyResearchCenterinTibetUniversity,Lasa850000,China)  AbstractTibetantextautomaticproofreadingisoneofthemainapplicationfieldsofTibetaninformationprocessing.ModernTibetanworda

3、utomaticproofreadingisoneoftheimportantkeytechnologies.ThispapermakesproofreadingmethodsbasedondifferenttypesofTibetanworderror.Nonworderrorproofreadingcouldbedonebywordsegmentationandstringmatchingprocessing.Trueworderrorproofreadingcouldbedonebychec

4、kingthebinary5relationshipofwordsconnectionandadjacencyrelationshipofwords.Resultsofbothproofreadingmethodsaregood.  Keywords:TibetanText,AutomaticProofreading,NonWord,TrueWord  随着藏区经济和网络技术的发展,藏文信息处理技术得到了很大的发展,藏民族文化的传播和发展也更迅速、手段更现代化。  文本自动校对是较复杂的语言处理过

5、程,也是自然语言处理的重要研究领域之一。目前,对于英语、汉语的文本自动校对方法很多,所取得的研究成果也应用在了较多的领域。从目前的研究现状来看,针对藏文文本的自动校对技术的研究文献还不太多,对藏文化的快速传播和发展带来了一定的影响。  藏文文本的自动校对技术除了应用在藏文字的手写识别和语音识别等方面,在藏文拼写检查、自动分词、语料库制作等领域也有着很广泛的应用[1]。因此,藏文词的自动校对技术研究有很高的现实意义和实用价值。  目前,藏文文本的校对主要是基于语法、语义分析的方法[2]。该方法需要建

6、立大量语料的词库、字符续接关系表、语法规则库等。校对过程中需要将原始文本与词库和各种语法表进行比对,然后将疑似错误的地方标注出来。  本文主要针对现代藏文中出现的常见词错误,分别对非词和真词的侦错和纠错提出了自动校对的方法。  1现代藏文词的常见错误类型5  1.1非词错误  1.2真词错误  2现代藏文词校对的功能设计  要对词进行校对首先要对待校文本进行分词处理,一个好的分词算法对文本校对的最终结果起着举足轻重的作用,分词的正确率的高低直接影响到校对质量的高低。  如上图所以,我们采用BCCF

7、算法对待校文本进行分词。BCCF算法首先用单垂线或双垂线()、空格、换行符等来断句,即将一个单垂符或双垂符前面的字符串看作是一个句子,之后利用句子内的格助词将句切分成块儿,然后在用分词词表对块儿进行双向匹配,得到分词后的文本,同时对所得分词单位进行标注,以备之后的依存关系分析。  3非词错误自动校对  由于此前已完成的音节字的校对,因此此时的文本中不会再有非词音节字。但在一些文本中,某一些真词音节字组合在一起时,形成的藏文词并非现代藏文中的真词,而是一个非词错误。非词错误会使我们在对待校文本进行自

8、动分词时,切分后的文本中连续出现较多的单字词或无法成词的多个音节字,也就是所谓的散串。因此,散串的定位与处理便成为非词错误侦错的关键。  对非词错误将采用的校对方案如下:  1)对待校对藏文文本进行分词,得到分词结果S=W1W2…Wn;  2)根据分词结果,定位不成词的音节字串或散串Wi;  3)将散串与词的混淆集进行最大逆向匹配,查询是否有与WiWi+1…5Wi+m字串完全匹配的,如果有,这个散串是错误的,从混淆集中得到与其对应的正确的词;  4)若匹配不成功则采用最小编辑距离法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。