1、1111111111PDF 阅读器的设计与实现摘 要:为有效提取 PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示 4 个单元的 PDF 阅读器的实现模型。基于 PDF 文件结构特点,提出了忽略次要信息定位关键位置的解析思路。在此基础上,针对 FlateDecode、DCTDecode 和 CCITTFaxDecode 这 3 种过滤器处理的数据流,给出了详细的解决方案,然后对 PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论。通过实验结果
2、表明,该模型能较好地实现 PDF 信息提取和显示,有利于 PDF 在中文信息处理领域中的进一步开发利用。关键词:可移植文档格式; 阅读器; 文件解析; 图像提取; 信息处理中图法分类号:TP391文献标识码:A文章编号:1000-7024 (2010) 07-1635-04Design and implementation of PDF readerLI Qiang,LIU Shi-jin(College of Physical Science and Technology,Central China Normal University,Wuhan 430079,
3、 China)Abstract:To extract the text, images and graphical information from PDF file validly, an implementation model including four units(file pretreatment, display pretreatment, function extension and display) is raised. Based on the structure of PDF file, a solution ofignoring
4、 secondary message and positioning key information is put forward. On this basis, a solution to the data stream processed byFlateDecode, DCTDecode and CCITTFaxDecode filters is presented. After analyzed PDF pages twice, corresponding data structureof text and graphical are designed t
5、o record the results. At last the data utilization and function extension are discussed. The model canimplement the extraction and display of information in PDF file well by experimental comparison, and it will benefit the further deve-lopment of PDF in the field of Chinese information p
6、rocessing.Key words:PDF; reader; file parse; image extraction; information processing11111111110 引言PDF 作为国际标准的电子文档格式[1],以跨平台、多媒体集成、可靠安全、精确的色彩还原度和丰富的图象显示等许多其它文档格式无法比拟的优点,在全球范围得到广泛的认可和应用。全世界有超过 1800 家供应商提供基于 PDF 的解决方案,包括生成工具、插件、咨询、培训和支持工具。http://www.dnke.net(怎么把PDF转换成word)目前,对 PDF 各方面的
7、研究正处于一个全面发展的时期。国内很多作者从 PDF 文件的图像、链接信息、文本信息提取和PDF 文件阅读器的具体实现方案。1 阅读器体系结构本阅读器从实用出发,充分考虑了代码的可维护性和功能可扩展性的需求,用 VC++6.0 实现。主要有 4 个单元模块:文件预处理模块、显示预处理模块、功能扩展模块、显示模块,各模块之间调用关系如图 1 所示。其中,文件预处理模块解析 PDF 文件,得到相关文字、图片、图形等页面内容信息;显示预处理模块建立内存画布,根据文件预