文本图像信息的提取与识别_邱立松.pdf

文本图像信息的提取与识别_邱立松.pdf

ID:52768075

大小:426.38 KB

页数:4页

时间:2020-03-30

文本图像信息的提取与识别_邱立松.pdf_第1页
文本图像信息的提取与识别_邱立松.pdf_第2页
文本图像信息的提取与识别_邱立松.pdf_第3页
文本图像信息的提取与识别_邱立松.pdf_第4页
资源描述:

《文本图像信息的提取与识别_邱立松.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、总第290期计算机与数字工程Vol.41No.122013年第12期Computer&DigitalEngineering1981*文本图像信息的提取与识别邱立松黄继风(上海师范大学信息与机电工程学院上海200234)摘要文本是计算机视觉的许多应用中的一项重要特征,图像中的文本往往包含着比较丰富的信息,将文本图像信息里的文字进行提取和识别,对于图像内容的分析、理解、信息检索等方面具有重要的意义。文本图像的识别分为预处理,文字的切分,细化,特征选择与提取,最后对候选文字进行识别。在文字的切分方面提出了一种改进的投影算法,该算法能在很大程度上提高文字切分的准确度,采用基于数学形态学算法对

2、文字进行细化处理,并在特征选择方面引用了多级分类的算法。关键词预处理;文字识别;特征选择;多级分类中图分类号TP391.43DOI:10.3969/j.issn1672-9722.2013.12.033FeatureExtractionandRecognitionofInformationinDocumentImageQIULisongHUANGJifeng(CollegeofInformation,MechanicalandElectricalEngineering,ShanghaiNormalUniversity,Shanghai200234)AbstractDocumentis

3、animportantfeatureinmanycomputervisionapplications.Thedocumentimagetendtocontainmoreabundantinformation.Featureextractionandrecognitionofcharactersindocumentimagehavethevitalsignificanceinimagecontentanalysisandun-derstanding,evenininformationretrieval.Therecognitionofdocumentimageincludesthefo

4、llowingsteps:characterspreprocessing,seg-mentation,thinning,featureselectionandextraction,finallytherecognitionofcandidatewords.Animprovedprojectionalgorithmispro-posed.Thisalgorithmcangreatlyimprovethesegmentationaccuracy.Mathematicalmorphologyproposedisusedtocharactersthinning,andamulti-stage

5、classificationalgorithmisintroducedinfeatureselection.KeyWordspreprocessing,recognitionofcharacters,featureextraction,multi-stageclassificationClassNumberTP391.43[10],四边码[11]配法等方法,本文引用一种比较新的特征提1引言取方法———多级分类特征提取,把图像分成相同大小的图随着计算机技术和多媒体的飞速发展,越来越多的信息像块,进行特征提取,进行三次不同的分块处理。最后在识以数字图像的形式传播;图像中签入了大量的描述性

6、文字,别方面利用最小距离分类法作为准则,对处理好的图像进这些文字包含着重要的信息。文字的识别是模式识别研究行识别。中的一个重要课题,也是图像处理和模式识别相结合的一个本文在基于传统的一些文字识别算法的基础上,对文研究方向。本文通过OCR(光学字符识别)把文本图像转入字识别过程中的算法进行了改进。比如改进投影法对文字到计算机中,然后对图像进行滤波,消除不必要的噪声。由的切分,降低了文字的错误切分。用数学形态法对文字的于输入的文本各不相同,进行二值化处理需要的阈值也各不细化,降低了毛刺现象的产生,提高了文字的检测和特征提[1],降低了识别的复相同,每次都进行手工设定阈值是不合理的,这里采

7、用Os-取速度,最后文章用多级特征提取算法[4]tu进行二值化处理,对文本文档图像来说,效果显著。杂性,提高了识别的准确度。文本图像不同于其他图像,文字之间,行与行之间都有2图像的预处理空白部分,所以本文采用投影法进行行切分与字切分,相对于基于梯度的文本文档的检测与提取,效果要好,特别是字由于字符字体存在着多样性,所以在一般的字符识别切分时,梯度法很难切分。考虑到文字之间可能也有空白系统中,字符识别之前要先对图像进行预处理,包括对图像间隙,在字切分时,对投

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。