基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf

基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf

ID:54018055

大小:291.11 KB

页数:5页

时间:2020-04-28

基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf_第1页
基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf_第2页
基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf_第3页
基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf_第4页
基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf_第5页
资源描述:

《基于贝斯准则和待定词集模糊矩阵的满文识别后处理.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第25卷第11期东北大学学报(自然科学版)Vol.25,No.112004年11月JournalofNortheasternuniversity(Naturalscience)Nov.2004!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!文章编号:1005-3026(2004)11-1061-04基于贝斯准则和待定词集模糊矩阵的满文识别后处理李晶皎1,赵骥1,2(1.东北大学信息科学与工程学院,辽宁沈阳110004;2.鞍山科技大学计算机科学与工程学院,辽宁鞍山114002

2、)摘要:将满文单词识别系统的识别信息和满文的词组信息有机地结合起来,建立满文词组和待定词集统计信息库,利用贝叶斯准则,综合满文待定词的后验概率和词组的先验概率信息,建立合理有效便于实现的数据结构,对满文单词识别系统输出存在的拒识词和错识词进行检测和纠正,从而有效地提高满文识别系统的识别率·实验表明:后处理性能除取决于语言模型外,还取决于后概率的精确估计·另外,在单词识别系统识别率高的情况下,后处理的纠错能力会增强·关键词:满文;后处理;待定词集;模糊矩阵;贝叶斯准则;特征矢量;词组库中图分类号:TP391文献标识码:A在满文识别过程中,由于清代历史

3、档案资料0白像素,是手写体,字体和字型不是很统一[1],书写的纸f(a,y)={1黑像素·(1)张已经不同程度的腐蚀老化,这样对单词识别过直接求二维图形的变换系数的计算量很大,程产生很大的干扰·为了提高识别系统的识别率,通常采用投影法,由式(2)把二维点阵变换为一维需要对单词识别系统的输出结果进行进一步处理数据,如图1所示[6]·(后处理)·将自然语言和图像观测这两个随机过程有机地结合起来,在对大量样本集单词识别结果分析的基础上,精确的统计侯选词的后验概率,提高文本识别后处理的性能[2]·此方法已成功地应用于英语和汉字识别的后处理过程·对大规模的满

4、文语料进行统计,是基于统计的后处理的第一步,对大量的语料进行单词,二词同现的频率统计[3],利用贝叶斯准则和待定词集模糊矩阵的统图1满文点阵图形及其投影计信息进行了一些实验·由于识别后处理必须是Fig.1Dot-matrixgraPhofmanchuanditsProjection在单词识别率达到一定程度才可发挥其作用,所M-1N-1以后处理实验是在部分识别率较高的满文文本中g(a)="f(a,y),g(y)="f(a,y)Y=0X=0进行的[4]·(0#a,y#M-1)·(2)1基于投影-变换系数法的满文识投影后每个满文的数据量由MN比特减至M+

5、别方法及其存在的问题N比特,由于积累作用,抗干扰能力有所提高·1.2投影-变换系数法存在的问题1.1投影-变换系数法对于手写体的满文来说,笔划的长短,粗细和满文识别系统的单词识别部分采用的是投影形态都对变换的数值有直接的影响,会产生错识[5],这种方法把矩形满文看作是一种-变换系数法词和拒识词·因此,为了提高识别系统的识别率,随机点阵图形·提取它的变换系数作为识别特征·对单词识别系统的输出结果进行检错和纠错是很设f(a,y)是满文的二维点阵图形,收稿日期:2004-03-19基金项目:辽宁省自然科学基金资助项目(2001113)·作者简介:李晶姣(

6、1964-),女,辽宁沈阳人,东北大学教授·1062东北大学学报(自然科学版)第25卷必要的·与后面满文组成词组的所有待识词组,然后根据词组的使用频率,确定最终的识别结果[8]·2满文识别后处理的方法为了讨论方便,引入下列一些符号,令!=2.1满文识别后处理的基本思想a1a2⋯a7⋯aN为输入的待识满文的特征矢量序满文识别后处理的过程就是利用单词识别已列,其中a为第7个位置上的待识满文所对应的7获得的满文识别信息,结合满文的构词规则及其统特征矢量,令b为第7个位置上的待识满文的特7计特性来检测、纠正单词识别输出的拒识词和错识征矢量为a的满文输出·各

7、个分量b和a是一777词[7],从而有效地提高识别系统的识别率的过程·一对应的,后处理的过程就是检测、纠正满文输出其基本思想就是检查任意一个满文的初级识别结序列"=b1b2⋯b7⋯bN的拒识词和错识词·其过果中的任意一个待选词和后一个待识词的所有候程如图2所示(e⋯e⋯e为满文识别后处理的27N选词的组词情况,通过查找词组库,找出该满文能输出)·图2满文识别后处理示意图Fi9.2Schematicdia9ramofmanchucharacterreco9nitionPost-Processin9为了充分地利用单词识别器获得的信息,将的{Z}中的某个

8、待定词b(a=1,2,⋯,K),a7a,7每个待识特征矢量a7的输出描述为一个按概率也可能不在待定词集{Za}7中·P(b

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。