基于小波特征的单字符汉字字体识别.pdf

基于小波特征的单字符汉字字体识别.pdf

ID:54367341

大小:240.81 KB

页数:6页

时间:2020-04-29

基于小波特征的单字符汉字字体识别.pdf_第1页
基于小波特征的单字符汉字字体识别.pdf_第2页
基于小波特征的单字符汉字字体识别.pdf_第3页
基于小波特征的单字符汉字字体识别.pdf_第4页
基于小波特征的单字符汉字字体识别.pdf_第5页
资源描述:

《基于小波特征的单字符汉字字体识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第2期电子学报Voi.32No.22004年2月ACTAELECTRONICASINICAFeb.2004基于小波特征的单字符汉字字体识别陈力,丁晓青(清华大学电子工程系智能技术与系统国家重点实验室,北京100084)摘要:汉字图像不仅包含了汉字的字符信息,还包含了汉字的字体信息.字体信息是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统.目前的字体识别方法还不能对单个汉字字符的字体进行识别.本文提出了一种新的字体识别方法,能够在不知道汉字字符的前提下,识别单个汉字的字体.首先对单个汉字的字符图像进行小波分解,在

2、变换图像上提取小波特征.提取的小波特征经BoX-CoX变换整形后,用线性鉴别分析技术(LDA)进行特征选择,得到字体识别特征.所使用的分类器是MODF分类器.在包含7种字体的样本集上进行的实验表明,本文提出的方法能够在不知道汉字字符的前提下,对单个汉字的字体进行有效识别,基于单字的字体识别率达到97.35%.关键词:字体识别;单字符;小波特征;LDA;MODF中图分类号:TP391.43文献标识码:A文章编号:0372-2112(2004)02-0177-04FontRecognitionofSingleChineseChar

3、acterBasedonWaveletFeatureCHENLi,DINGXiao-ging(Dept.ofE&E,TsinghuaUniu,Beijing100084,China)Abstract:Printedcharacterimagecontainstheinformationofcharactersandtheinformationoffonts.Fontinformationisessen-tiaiiniayoutanaiysisandreconstruction,andisheipfuitoimprovethep

4、erformanceofcharacterrecognitionsystem.AnaigorithmforfontrecognitionofsingieChinesecharacterisproposed,whichneedsnopriorknowiedgeofcharacters.Thenewaigorithmcanrecog-nizethefontofasingieChinesecharacterwhiieeXistingmethodsareaiibasedonabiockofteXt.WeeXtractedwaveiet

5、featurefromasingiecharacterimageandempioyedBoX-CoXtransformationandLDAtechniguetogetthefinaifeatureforfontrecognition,whichwasusedbyaMODFciassifier.EXperimentshowsthatourmethodcanrecognizethefontofasingieChinesecharactereffectiveiyandarecognitionrateof97.35%isachiev

6、ed.Keywords:fontrecognition;singiecharacter;waveietfeature;LDA;MODF西方文字的一些固有属性(如基线的位置,字母间空白比例!引言等),这些方法难以应用于汉字的字体识别,同时也不可能对文档电子化对于文档的自动处理具有非常重要的意义.单个字符进行字体识别;YongZhu等人使用全局纹理特征对在文档电子化过程中,字体信息是版面分析、理解和恢复的重汉字进行字体识别[4],他们首先通过预处理形成一定大小的要依据,还有助于实现高性能字符识别系统.首先,汉字识别汉字图像块,然后

7、用Gabor滤波器提取全局纹理特征,最后使系统不仅要能准确识别汉字的字符,还要能恢复原有的版面用加权欧式距离分类器进行分类.这种方法处理的对象是由格式,而版面格式的恢复包含了字体信息的恢复.其次,由于同种字体字符组成的字符块,对于单个字符,无法进行字体识版面中不同部分的文本往往使用不同的字体(如标题、摘要和别.事实上,目前还没有针对单个汉字进行的字体识别研究.正文一般使用不同的字体),字体信息可以用来辅助版面分析而在实际应用中,至少有两种情况需要对单个汉字的字体进和理解.第三,由于单体字符识别相对于多体字符识别的简单行识别:第

8、一,为了强调某些内容,一个句子中的某几个字往性,单体字符识别系统比多体字符识别系统有更高的识别率往用不同的字体进行表示.第二,在某些情况下,无法得到较和更好的鲁棒性.如果能够得到待识别汉字的字体信息,就能多的字符用来组成一个字符块(例如某些只有几个字的标题;够用单体字符识别系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。