基于ocr识别表格的分析编改系统研究

基于ocr识别表格的分析编改系统研究

ID:32271478

大小:6.78 MB

页数:72页

时间:2019-02-02

基于ocr识别表格的分析编改系统研究_第1页
基于ocr识别表格的分析编改系统研究_第2页
基于ocr识别表格的分析编改系统研究_第3页
基于ocr识别表格的分析编改系统研究_第4页
基于ocr识别表格的分析编改系统研究_第5页
资源描述:

《基于ocr识别表格的分析编改系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要表格是一种常用的数据资料载体,广泛应用于各种场合。印刷表格中的信息经常需要批量输入到计算机中进行整理和分析,通常的做法是由人工录入,但这种方法的缺点是效率低,易出错,成本高。本文通过对一种基于OCR识别的自动化表格数据生产加工系统进行研究,旨在提高加工效率和数据质量并节约加工成本。在本文所研究的数据加工系统中,通过细化加工需求,将表格录入分解为表格结构的版面分析和单元格文字的编改校对两个相对独立的问题。本文所研究的加工系统采用自动化的方法分析表格结构并由人工辅助加以调整,再选取两种有互补性的识别引擎对表格的版面进行识别得到所有单元格的文字信息,然后对比并标记出不相同的文字进行人工

2、编改和校对,最后将表格的版面信息和校对正确的文字整合自动输出电子表格文件。本文设计了结构化的数据加工流水线,支持数百人同时在线完成海量数据加工任务;大量运用了自动化机器人技术,使用双引擎识别文字对比的方法,减轻了人工操作的负担;采用人工双路编改校对的模式,有效的控制了加工的错误率。经过实践,这种设计显著提高了数据加工的效率和质量,降低了加工成本,并提供了一套高效的,可靠的,运行稳定的,使用简便的表格数据加工解决方案。关键词:表格分析识别编改AbstractFormiSaconl_l[Ilondatacarrier,iswidelyusedmvariousoccasions.Theinfo

3、rmationinprintedformoftenneedstoinputtoacomputerforcollectionandanalysis,itisusuallybyartificialentry,butthedisadvantageofthismethodislowefficiencyandhighcost.pronetoerrors.nispaperstudiestheimplementationofanOCRrecognition-basedautomatedtabledataprocessingsystem,inordertoimprovetheimplementation

4、methodofthemachiningefficiencyandqualityofdata,savingprocessingcostforthetarget.Inthedataprocessingsystem,throughdetailedprocessingrequirements,theproblemcanbedividedintotworelativelyindependentproblems:tablestructureofthelayoutanalysisandtexteditingandproofreading.Thesystemuseautomatedmethodtoan

5、alysistablestructurebymanualadjusted,selecttworecognitionenginesthathavecomplementarytoidentifythelayoutofthetableandgettextinformationfromallcells,andthencompareandmarkoutthecontrasttochangetextandproofreadingbyartificial,finallyintegratetablelayoutinformationandproofreadtextandexportspreadsheet

6、fileautomatically.Tllispaperintroducesthedesignofthestructureddataprocessingpipeline;itcallsupporthundredsofpeopleonlineatthesametimeprocessinghugeamountsofdatatocompletethetask.111esystemmakesextensiveuseofautomationrobottechnology,usingtwo-enginerecognitionandtextcontrastmethodtoreducetheburden

7、ofmanualoperation.ThesystemUSeStwo-wayeditingandproofreadingmethodtoeffectivelycontroltheerrorrate.Afterpractice,thisdesigncangreatlyimprovetheefficiencyandqualityofdataprocessing,andtoreducetheprocessingcost,andprovid

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。