印刷体数学公式符号切分和识别

印刷体数学公式符号切分和识别

ID:32137774

大小:1.66 MB

页数:44页

时间:2019-01-31

印刷体数学公式符号切分和识别_第1页
印刷体数学公式符号切分和识别_第2页
印刷体数学公式符号切分和识别_第3页
印刷体数学公式符号切分和识别_第4页
印刷体数学公式符号切分和识别_第5页
资源描述:

《印刷体数学公式符号切分和识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要科技文献作为记录科学技术信息的载体,对其进行数字化是建设信息化社会的迫切需要。目前广泛应用的OCR(Opticalcharacterrecognition,光学字符识别)技术可以将印刷体文献中的文字高速、自动地输入计算机,且取得很高的识别率。但是科技文献中包含大量的数学公式,OCR还不能对其进行正确识别,只能将其存储为图片格式,不仅占用大量空间,而且不能对其进行再编辑。因此,数学公式自动识别在将科技文献转化为电子文档的过程中具有重要的意义。印刷体数学公式识别系统包括公式抽取、公式符号识别、公式结构分析和公式重构四个组成部分。其中,公式符号识别

2、模块是系统的核心部分,其功能是将公式中的符号图像转换成相应的代码,分为符号切分和符号识别两个阶段。针对传统的文字识别器在识别公式符号中存在的问题,本文对印刷体数学公式符号切分和识别展开研究,设计了能够适应公式符号二维分布、大小不一、多交叠、多字体等特点的切分和识别算法。首先采用迭代自组织的符号切分方法对公式符号进行切分,为符号识别提供正确的符号位置信息;然后对符号进行预处理,并采用基于游程特征的符号识别方法对公式符号进行识别。通过对不同印刷质量文档的实验表明,本文设计的符号切分和识别方法能够取得较高的识别率和令人满意的处理速度。关键词光学字符识别;数

3、学公式识别;字符切分;迭代自组织;游程特征AbstractAsacarrierofrecordingtechnicalinformation,conveningscientificdocumentstodigitalformisanurgentneedinbuildinginformationsociety.Atpresent,theOCRsystemsthathavebeenwidelyusedCanautomaticallyrecognizetheordinarytextwithhighspeedandaccuraterate.Asciemifi

4、cdocumemgenerallycontainsalargenumberofmathematicalexpressionsthattheOCRsystemscannotdealwith,SOthemathematicalexpressionshadtobestoredasimageswhichnotonlytakelotsofstoragespace,butalsocannotbereedited.Thus,automaticrecognitionofmathematicalexpressionbecomesoneofthekeyvehiclesi

5、nthedrivetowardstranscribingsciemificdocumemsimoelectronicforms.TherecognitionsystemofprintedmathematicalexpressionsCanbedividedimofourstages:mathematicalexpressionextraction,mathematicalsymbolrecognition,structuralanalysisandmathematicalexpressionreconstruction.Themathematical

6、symbolrecognitionisanimportantstageinthesystemanditsfunctionisgettingthecodeofsymbolsfromexpressionimages.Itconsistsoftwosteps:symbolsegmentationandsymbolrecognition.AimingatthefactthatthecommercialOCRsystemscannotrecognizemathematicalsymbolscorrectlybecauseofthedifferencesbetw

7、eenmathematicalsymbolsandordinarycharacters,wedoresearchworkontherecognitionofprimedexpressions.Anapproachthatadaptstomathematicalexpressionfeaturessuchasatwo—dimensionalstructureandawidevarietyoffomsizeandstyleisproposedforsymbolsegmentationandrecognition.Firstly,aniterativese

8、lf-organizingmethodisusedtosegmentsymbolsinexpressions

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。