一种pdf信息提取与表格重现的算法

一种pdf信息提取与表格重现的算法

ID:2241097

大小:2.86 MB

页数:8页

时间:2017-11-15

一种pdf信息提取与表格重现的算法_第1页
一种pdf信息提取与表格重现的算法_第2页
一种pdf信息提取与表格重现的算法_第3页
一种pdf信息提取与表格重现的算法_第4页
一种pdf信息提取与表格重现的算法_第5页
资源描述:

《一种pdf信息提取与表格重现的算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一种PDF信息提取与表格重现的算法作者略作者不能省略摘要:PDF是一种国际通用格式的电子文档,无须解释与传统扫描图像和流行于网络的标记语言文档相比,PDF表格既无明确的实体框架信息,也没有采用结构化语言进行描述,这给PDF文件中表格信息的提取、复用和编辑带来了诸多不便。本文提出并实现了一种使PDF文档表格的逻辑结构得以重现的算法,并将表格内容以HTML序列化输出。该算法为PDF表格信息的再利用提供了便利。关键字本文重点是算法,因此关键词中应有”算法”:信息提取;表格重现;PDFAbstract:ThePDFistheinternationalgeneralelectronicdoc

2、umentformat.NeitherinformationofexplicitentityframeworknorstructuraldescriptionlanguageexistsinPDFformattodefinethetables,whichbroughtmanyinconveniencetoextracting,duplicatingandeditingoftheinformationoftablesinPDF.ThisarticleprovidesanalgorithmtorepresentthelogicstructureoftablesofPDFdocument

3、,whichcanoutputthecontentoftablesinHTMLformat.ThisalgorithmbroughtconveniencetothereuseoftableinformationofPDF.Keywords:informationextraction;tablerepresentation;PDF1.引言PDF(Portabledocumentformat)是一种目前国际通用的电子文档开放标准[1]标注应为小四号字体,下同不再做标记,其平台无关、信息完整、安全可靠等特性备受关注,各国政府机关、企事业单位、出版行业均大量采用该格式作为标准,进行信息发布

4、、交换与存储。于此同时,对PDF文档信息的提取、复用和再编辑的需求也愈发强烈,表格便是其中重要内容之一。PDF表格重现与传统电子表格相比,识别过程具有一定特殊性。从理论上来讲,表格是在人的视觉经验下看似横平竖直排列的一些文字。因此表格识别也是基于人的视觉经验的。从编码格式看,PDF并没有专门提供表格信息记录的编码方式,表格线是以底纹图形方式给出的,无法跟文字进行明确的逻辑关联,也就是说,只有在PDF可视化后,表格存在与否才能明确,所以表格线只具有参考意义。OCR,即光学字符识别技术[2]出现较早,它利用扫描图像各点灰度不同,来判断文字、边框、照片等信息。对于边框结构信息完整的表格,

5、扫描图像技术可以通过识别表格线的交叉点以及灰度的均匀程度来判断表格线以及其与文字的关系[2,3]。而对于边框结构不完整的表格,也有利用灰度频率、字块密集程度等信息来识别表格内容及其逻辑布局关系的[4,5]。由于扫描图像与PDF特征的本质不同,识别算法很难借鉴到PDF内容的识别技术中。HTML——超文本标记语言[6]目前被广泛应用于网络,其编码格式具有天然的结构化特点,只要找到表格便签便可以侦测到表格位置大小等各种信息。相比之下,绝大部分PDF中的表格线是以图像形式给出,也有很少一部分采用矢量线描述,线框信息与文字很难结合起来,使得信息抽取过程存在诸多问题。有文献曾提出对PDF中表格

6、的提取可以先转化为图像[7],这样很好的利用了现有研究成果。不过这种方式仍值得商榷[8],因为间接识别出表格是以损失丰富的原始数据信息为代价[9,10]。本文提出了一种针对PDF信息提取和表格重现算法,该算法也适用于其他具有无结构化编码特征的表格的重现。1.处理流程概要引起层次结构的总分关系,以下的3,4,5,6,7标题应归为2.1-2.6作为正文部分.处理流程如图1所示:lStep1:PDF文档解析根据PDF编码规则,对二进制码流进行解码,从内容流中分离出文本、图像等信息。lStep2:文字流生成与框选内容抽取建立文字流数据结构并保存文本对象信息,将PDF内容可视化,框选待重现表

7、格内容。lStep3:栅格化对所有文字流节点分别按照水平和垂直方向进行划分,将划分信息分别保存,形成概念上的待重现表格边框结构。lStep4:表格内容归位将仅有坐标而无结构化信息的文字流内容,根据概念结构找到自己在表格中相对位置,从而建立了文字流节点间的相对关系,实现表格的拓扑结构。lStep5:序列化输出最后对建立好拓扑结构的二维表格进行一维序列化输出,表示为通用结构化编码格式,如HTML等,可以在网页中进行浏览,或导出到OA软件中进行可视化编辑。图1整体处理流程文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。