<1?@A40$6B4"> <1?@A40$6B4" />
版面分析中表格与图形的鉴别

版面分析中表格与图形的鉴别

ID:38197457

大小:331.74 KB

页数:5页

时间:2019-05-25

版面分析中表格与图形的鉴别_第1页
版面分析中表格与图形的鉴别_第2页
版面分析中表格与图形的鉴别_第3页
版面分析中表格与图形的鉴别_第4页
版面分析中表格与图形的鉴别_第5页
资源描述:

《版面分析中表格与图形的鉴别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、版面分析中表格与图形的鉴别卜飞宇%刘长松!丁晓青!(%中国科学院软件研究所,北京%""",")(!清华大学电子工程系智能技术与系统国家重点实验室,北京%""",#)-./012:345617489:;<6;=$66$><1?@A40$6B4$:?摘要在版面分析过程中,有时会将表格误判为图形或将图形误判为表格。为避免对误判的表格或图形进行识别而产生的错误结果,文章提出了一种根据表格框线信息和表格单元信息来区分表格与图形的方法。该方法结合表格的结构特征,提出了作为一个表格的重要组成要素的表格框线和表格

2、单元所必须满足的若干约束条件,通过验证每个条件是否得到满足来区分表格与图形。实验表明,该方法能有效地区分绝大多数表格与图形,极大地降低了对表格与图形的误判率。关键词版面分析表格图形表格框线表格单元&’(文章编号%""!.,++%.(!""#)%!."",+."C文献标识码D中图分类号EF+G%!"#$"%&’"#()*+,-#./012/*3("4#"%5*60’$7%*,6#"#8’9-"6’:5"’;(*%�%&"%&<(%H?<>1>4>695I95>J0;6,’A1

3、?6<6D:0B6/795I:16?:6<,K61L1?@%""",")(!I>0>6M67N039;0>9;795H?>6221@6?>E6:A?929@70?BI7<>6/<,-26:>;9?1:-?@1?66;1?@O6P0;>/6?>,E<1?@A40Q?1=6;<1>7,K61L1?@%""",#)7+#$/*4$:E0326;60>6B0<@;0PA1:<,0?B@;0PA1:;60>6B0<>0326<37/1<>0R69520794>0?027<1<$H

4、?9;B6;>90=91B>A1A1<0/6>A9B>9B1<>1?@410326<5;9/@;0PA1:<30<6B9?>A6<>;4:S>4;02:9?<>;01?6B1?59;/0>19?95>03265;0/621?6<0?B:622<$D::9;B1?@>9>A6<>;4:>4;6950>0326,<9/6?6:6<<0;7;6<>;1:S>19?<>A0>/4<>36<0>1<516B370225;0/621?6<0?B:62

5、2<1?0>03260;6P;6<6?>6B1?>A1A6<6;6<>;1:>19?<>9B1<>1?@410326<5;9/@;0PA1:<$-TP6;1/6?><A0>>A1A9B1<6556:>1=6$?-6@0/A#:N0794>0?027<1<,E0326,U;0PA1:<,V;0/621?6,’622,&’(%引言这些线中有一条或多条水平线与区域的宽度相近,有一条或多经过多年的努力,&’(技术越来越成熟和实用。现在的条

6、垂直线与区域的高度相近,此外该区域中的文字在水平或垂&’(系统,已经不再局限于单纯的文字识别,而是一个具有版直方向上排列相当整齐,则将该区域判断为表格,否则判断为图形。面分析、字符切分、字符识别、表格处理、后处理、版面重构等功在文献)+*中,区分表格与图形的方法如下:能的综合系统。进行文档识别时,要先对文档图像进行版面分先对整个图像进行连通域搜索,将尺寸明显大于字符的连析,即将文字、表格、图形等分割成相应的区域,再对版面分析通域看作表格区域或图形区域,再利用表格的如下几个特征来得到的各区域分别进行

7、识别。因此,表格与图形的区分,一般在区分表格与图形:版面分析时就完成了。(%)表格区域的横向与纵向投影有一系列的尖峰。在文献)%*中提到,对于版面分析得到的可能为图形或表格(!)表格区域的非长黑像素游程的平均长度和文本区域的的区域,检测出其中所有的水平线,若检测到的最上面的一根类似。和最下面的一根水平线与区域的宽度接近,并且在这两根水平(+)表格区域的长黑像素游程占总游程数目的百分比在一线之间还有若干其它水平线,则将该区域判断为表格区域,否定的范围之内。则判断为图形区域。这种方法由于仅用到了水平线

8、须满足的两以上提到的几种区分表格与图形的方法,都没有充分的利个条件,会将一些满足这两个条件的图形误判为表格,误判率用表格的结构信息,对一些与表格较相似的图形会产生误判。较高。将图形作为表格来识别,肯定不会得到正确的识别结果,而将在文献)!*中,提出了如下一种区分表格与图形的方法:表格作为图形,会丢失很多有用信息。为降低误判率,我们提出对已判定为图形或表格的区域,如果在该区域中检测到了一种能充分的利用表格结构信息的新方法来区分表格与图形。一条或多条水平线和垂直线,水平线和垂直线彼此相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。