欢迎来到天天文库
浏览记录
ID:34046122
大小:266.76 KB
页数:9页
时间:2019-03-03
《基于xml的可扩展文档转换系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、http://www.paper.edu.cn基于XML的可扩展文档转换系统的设计与实现薛红军,杨俊,孙强北京邮电大学计算机科学与技术学院,北京(100876)E-mail:xuehongjun52@gmail.com摘要:本文给出了一种以XML为中间格式的多格式文档互相转换的解决方案。并根据此方案采用纯java开发出了扩展文档转换系统(简称EDCS),它不仅支持各种常见文档如WORD,EXCEL,PDF,HTML等格式文档到XML文档的转换,而且也支持XML文档到RTF,PDF,HTML文档的转换。此外,还具有跨平台,可移植性等优点。关键词:XML,M
2、SWord,文档解析,文档转换中图分类号:TP3911.引言随着我国办公自动化、电子政务的飞速发展,公文文档的交换也日趋频繁。当今主流文档的格式也很多,MicrosoftOffice、WPSOffice、OpenOffice、PDF等都为广大政府和个人所用。而文档格式的不同为信息的快速传输和交换带来了极大的不变,因此如何在各种文档转之间进行转换已经成为一个急待解决的问题。本文首先介绍了可扩展文档转换系统的框架,然后分析了Word文档的格式。在此基础上提出了如何将Word文档转换为XML文档,以及将XML文档转换为HTML文档。2.系统框架设计文档转换的通
3、用方法是在分析文件格式的基础上,定义一种中间语言或中间结构来描述文件有效语义和内容数据,并定义代表这些数据的标记规则,建立该标记规则与其它文件之[1][2]间的映射关系,从而实现文件之间的转换。由于XML元语言特性及结构化的特点,使其成为了互联网异构环境中不同类型和不同领域数据交换的开放标准。XML文档通过定义标记描述文档的结构与意义,它处理的数据具有结构化特点,容易阅读和编写。同时具有强大的可延展性和自我描述性,为实现Web文件在网络间的数据交换、处理、存储和信息搜索提供了最方便的载体。因此成为交换语言[3]的首选。因此,以XML为中间格式文档,设计系
4、统框架如图1所示:源文档XMLDOM树Word目标文档RTFExcelPDFPPTHTMLRTFTextPDF其它其它图1可扩展文档转换系统的框架-1-http://www.paper.edu.cn在图1中,通过从底层分析源文件的二进制格式,解析出源文件的文字、图片、样式等信息,生成XMLDOM树,存储在我们定义好的XML文件中,然后可以根据需要转换成目标格式的文档。在从源文档转XML文件以及从XML转目标文档的过程中,根据不同的转换需要定义一些规则,比如从XML到HTML的转换,需要定义XSLT文档,在XSLT文档中记录了的规则包括:XML中表示表格的
5、标签与HTML中的
6、格式。如果能借助XML良好的数据交换性,以XML文件为中间格式文档把Word文档转换成HTML文档或者WML格式文档,就可以在WWW浏览器或者WAP浏览器上浏览类似原来Word文件里的内容。要实现从Word文档向XML文档的转换,必须先了解Word文件的结构。MicrosoftWord是OLE2.0应用程序。其文件结构如图2所示。一个Word文件由一个MainStream,一个SummaryInformationStream,一个TableStream,一个DataStream,以及零个或多个包含在Word文档中内嵌OLE2.0对象的私有ObjectSt
7、ream组成。MainStream中包含了大部分的Word二进制数据。TableStream包含了多种描述文档结构的格式数据。DataStream包含一些MainStream中难以表示的一些字符,例如描述内嵌图片的二进制数据。SummeryInformationStream包含了word文档的摘要信息。ObjectStream中存储了内嵌对象的二进制数据。MainStreamTableStreamDataStreamObjectStreamSummaryInformationStream图2Word文档结构图Word文件分为复杂(complex)文件和简
8、单(non-complex)文件。在简单文件中,存储在word文件中的字符的物理
此文档下载收益归作者所有