基于ocr识别的表格分析编改系统研究 (1)

基于ocr识别的表格分析编改系统研究 (1)

ID:32985640

大小:2.67 MB

页数:80页

时间:2019-02-18

基于ocr识别的表格分析编改系统研究 (1)_第1页
基于ocr识别的表格分析编改系统研究 (1)_第2页
基于ocr识别的表格分析编改系统研究 (1)_第3页
基于ocr识别的表格分析编改系统研究 (1)_第4页
基于ocr识别的表格分析编改系统研究 (1)_第5页
资源描述:

《基于ocr识别的表格分析编改系统研究 (1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:UDC:学校代码:10055密级:限制尚恐犬淫硕士专业学位论文基于OCR识别的表格分析编改系统研究StudyonTableAnalysisandEditingSystemBasedonOCRRecognition论文作者毖送申请学位筮鲑工猩亟±学科专业指导教师王渣副熬援培养单位筮鲑堂瞳研究方向南开大学研究生院二O一一年十一月南开大学学位论文使用授权书根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学

2、拥有在《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文(包括纸质印刷本及电子版),学校可以采用影印、缩印或其他复制手段保存研究生学位论文,并编入《南开大学博硕士学位论文全文数据库》;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文摘以及论文全文浏览、下载等免费信息服务;(3)根据教育部有关规定,南开大学向教育部指定单位提交公开的学位论文;(4)学位论文作者授权学校向中国科技信息研究所和中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应

3、学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。论文电子版提交至校图书馆网站:http://202.113.20.161:800】-/index.htm。本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。作者暨授权人签字:瑟堡2011年11月30日南开大学研究生学位论文作者信息

4、论文题目基于OCR识别的表格分析编改系统研究姓名张镔学号2220091686答辩日期2011年11月26日论文类别博士口学历硕士口硕士专业学位团高校教师口同等学力硕士口院/系/所软件学院专业软件工程硕士联系电话Email通信地址(邮编):备注:是否批准为非公开论文是注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写(一式两份)签字后交校图书馆,非公开学位论文须附《南开大学研究生申请非公开学位论文审批表》。㈣5m叭Ⅲ7,㈣3吣0㈣6㈣0㈣2洲Y南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研究成果。

5、除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:毖堡2011年11月30日非公开学位论文标注说明(本页表中填写内容须打印)根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本说明为空白。论文题目基于OCR识别的表格分析编改系统研究申请密级团限制(≤2年)口秘密(≤10年)口机密(≤20

6、年)保密期限2011年10月17日至2013年10月17日审批表编号批准日期20年月日南开大学学位评定委员会办公室盖章(有效)注:限制★2年(可少于2年):秘密★10年(可少于10年):机密★20年(可少于20年)中文摘要表格是一种常用的数据资料载体,广泛应用于各种场合。印刷表格中的信息经常需要批量输入到计算机中进行整理和分析,通常的做法是由人工录入,但这种方法的缺点是效率低,易出错,成本高。本文通过对一种基于OCR识别的自动化表格数据生产加工系统进行研究,旨在提高加工效率和数据质量并节约加工成本。在本文所研究的数据加工系统中,通过细化加工需求,将表格录入分

7、解为表格结构的版面分析和单元格文字的编改校对两个相对独立的问题。本文所研究的加工系统采用自动化的方法分析表格结构并由人工辅助加以调整,再选取两种有互补性的识别引擎对表格的版面进行识别得到所有单元格的文字信息,然后对比并标记出不相同的文字进行人工编改和校对,最后将表格的版面信息和校对正确的文字整合自动输出电子表格文件。本文设计了结构化的数据加工流水线,支持数百人同时在线完成海量数据加工任务;大量运用了自动化机器人技术,使用双引擎识别文字对比的方法,减轻了人工操作的负担;采用人工双路编改校对的模式,有效的控制了加工的错误率。经过实践,这种设计显著提高了数据加工的

8、效率和质量,降低了加工成本,并提供了一套高效的,可靠

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。