office文件格式奥秘

office文件格式奥秘

ID:35201960

大小:441.89 KB

页数:67页

时间:2019-03-21

office文件格式奥秘_第1页
office文件格式奥秘_第2页
office文件格式奥秘_第3页
office文件格式奥秘_第4页
office文件格式奥秘_第5页
资源描述:

《office文件格式奥秘》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Office文件的奥秘——.NET平台下不借助Office实现Word、Powerpoint等文件的解析(一)【题外话】这是2010年参加比赛时候做的研究,当时为了实现对Word、Excel、PowerPoint文件文字内容的抽取研究了很久,由于Java有POI库,可以轻松的抽取各种Office文档,而.NET虽然有移植的NPOI,但是只实现了最核心的Excel文件的读写,所以之后查了很多资料才实现了Word和PowerPoint文件文字的抽取。之后忙于各种事情一直没时间整理,后来虽然想写成文章但由于时间太久也记不清很多细节

2、,现在重新查找资料并整理如下,希望对大家有用。 【系列索引】 1.Office文件的奥秘——.NET平台下不借助Office实现Word、Powerpoint等文件的解析(一)获取Office二进制文档的DocumentSummaryInformation以及SummaryInformation2.Office文件的奥秘——.NET平台下不借助Office实现Word、Powerpoint等文件的解析(二)获取Word二进制文档(.doc)的文字内容(包括正文、页眉、页脚、批注等等)3.Office文件的奥秘——.NET平台

3、下不借助Office实现Word、Powerpoint等文件的解析(三)详细介绍Office二进制文档中的存储结构,以及获取PowerPoint二进制文档(.ppt)的文字内容4.Office文件的奥秘——.NET平台下不借助Office实现Word、Powerpoint等文件的解析(完)介绍OfficeOpenXML文档(.docx、.pptx)如何进行解析以及解析Office文件常见开源类库 【文章索引】1..NET下读取Office文件的方式2.Windows复合二进制文件及其Header3.我们从Directory开

4、始4.DocumentSummaryInformation和SummaryInformation5.相关链接 【一、.NET下读取Office文件的方式】10年的时候参加比赛要做一个文件检索的系统,要包含Word、PowerPoint等文件格式的全文检索。由于之前用过.NET并且考虑到这些是微软的格式,可能使用.NET读取会更容易些,但没想到.NET这边查到的资料只有Interop的方式读取Office文件。后来接触了Java的POI,发现.NET也有移植的NPOI,但是只移植了核心的Excel读写,并没有Word、Powe

5、rPoint等文件的读写,所以最后没有办法只能硬着头皮自己去做Word和PowerPoint文件的解析。那么Interop是什么?Interop的全称是“Interoperability”,即微软希望托管的.NET能与非托管的COM进行互相调用的一种方式。通过Interop读写Office即调用安装在计算机上的Office软件来实现Office的读写,其优点显而易见,文件还是由Office生成或读取的,所以与自己打开Office是没有任何区别的;但缺点也非常明显,即运行程序的计算机上必须安装有对应版本的Office软件,同时

6、操作Office文件时实际上是打开了对应的Office组件,所以运行效率低、耗内存大并且还可能产生内存泄露的问题。关于Interop方式读写Office文件的例子网上有很多,有兴趣的可以自行查阅,这里就不再多讲了。那么,有没有方式不借助Office软件实现Office文件的读写呢?答案肯定是肯定的,就像Java中的POI及.NET中的NPOI实现的那样,即通过程序自己读写文件来实现Office文件的读写。不过由于Office文件结构非常复杂,这里只提供文件摘要信息和文件文本内容的解析。不过即使如此,对于全文检索什么的还是足够

7、的。 【二、Windows复合二进制文件以及Header】前几年,微软开放了一些私有格式的规范,使得所有人都可以对其文件进行解析,而不需要支付任何费用,这也使得我们编写解析文件的程序成为可能,相关链接在文章最后可以找到。对于一个MicrosoftOffice文件,其实质是一个Windows复合二进制文件(WindowsCompoundBinaryFile),文件的头Header是固定的512字节,Header记录文件最重要的参数。Header之后可以分为不同的Sector,Sector的种类有FAT、Mini-FAT(属于M

8、ini-Sector)、Directory、DIF、Stroage等五种。为了方便称呼,我们规定每个Sector都有一个SectorID,Header后的Sector为第一个Sector,其SectorID为0。我们先来说Header,一个Header的部分截图及包含的信息如下,比较重要的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。