基于tika的复合文档文本信息抽取及其应用开发

基于tika的复合文档文本信息抽取及其应用开发

ID:5390110

大小:333.34 KB

页数:4页

时间:2017-12-08

基于tika的复合文档文本信息抽取及其应用开发_第1页
基于tika的复合文档文本信息抽取及其应用开发_第2页
基于tika的复合文档文本信息抽取及其应用开发_第3页
基于tika的复合文档文本信息抽取及其应用开发_第4页
资源描述:

《基于tika的复合文档文本信息抽取及其应用开发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Tika的复合文档文本信息抽取及其应用开发吴鹏飞摘要:介绍了开源复合文档文本信息抽取工具ApacheTika的应用环境、系统架构、功能函数和支持的文档格式,介绍一个开发应用实例为下一步深入进行文本内容索引、实体关系识别、语义分析和跨语言理解等奠定了良好的基础。关键词:Tika;信息抽取;元数据;中文分词;复合文档成。具体Tika系统架构如图1所示。1引言当前Web环境下信息资源是以复合文档作为载体存在的,例如HTML、XML、DOC、XLS、PDF、JPG、FLV等格式文档,海量、分布、异构的复合文档构成了整个Web信息环境。Web环境下的智能信息处理和检索需要

2、理解跨语言、跨文化、跨文档的内容。Web中的复合文档作为信息资源的载体,要想理解不同类型复合文档,首先需要对复合文档进行信息解析与抽取。主要介绍了开源复合文档文本信息抽取工具ApacheTika的应用环境、系统架构、功能函数、支持文档格式,基于Tika和开源中文分词包IKAnalyzer开发实现了一个复合文档的文本信息抽取和中文分词应用实例,为下一步深入进行文本内容索引、实体关系识别、语义分析和跨语言理解等奠定了良好的基础。2Tika概述Tika是Apache软件基金会的一个子项目,是一个复合文3.2功能函数档文本信息抽取工具,能够自动检测和提取不同类型文档的3.2

3、.1解析函数元数据和结构化内容。Tika可以应用在多种环境中,支持爬Tika核心标准的API接口函数是解析函数,Parser虫利用解析器抽取复合文档文本;支持搜索引擎全文索引各interface是其中定义了的统一标准的parse接口:种数字文档;Tika元数据抽取能够实现自动分类和标注用于publicvoidparse(InputStreamstream,ContentHandler文档内容库构建;Tika抽取文本内容可以作为语义级别的文handler,Metadatametadata),档分析和抽取的内容,包括人物、地点、关系等实体关系识publicvoidpar

4、se(inputStreamstream,ContentHandlerhandler,Metadatametadata,ParseContextcontext)别、文档自动分类;还支持数字资产管理,用于多媒体数字第一个参数是InputStream,表示读取要被解析的文档。如资料的建设。果此文档流不能被读取,解析就会停止并且抛出的IOException;如果这个流可被读取但不能被解析,解析器就会3Tika系统架构与功能函数抛出一个TikaException;如果此内容处理程序处理一个事件失败,解析就会停止并且所抛出的SAXException。由此Parser解3.1系

5、统架构析器实现生成的这些XHTMLSAX事件被发送至给到parse方Tika系统由基于语言库的语言识别器、基于文档类型库的法的一个内容处理器ContentHandler(BodyContentHandler、文档类型识别器、基于解析库的元数据和文本内容解析器、整LinkContentHandler和XHTMLContentHandler)实例,解析文档合组件和基于命令行和图形用户接口可视化外部交互接口组内容作为XHTMLSAX事件的一个序列返回给客户应用程序。文档类型描述XHTML用来表达此文档的结构化内容,SAX事件用来启用流线化的处理。请注意这里使用了XHTML

6、格式,仅仅是为了表ElectronicPublicationFormatEpubParser类支持用于数字图书的电子出版物达结构化信息,不是为了呈现文档以供浏览。会被发送给客户应用程序。Metadata参数用来将文档元数据传递进/出此解析RichTextFormatRTFParser类使用的标准javax.swing.text.rtf功能器,文档元数据被表述为一个元数据对象,可以使用Tika的PackageParserCompressionandpackagingformats分析压缩或包装格式ParserUtils或者AutoDetectParser来根据文件的M

7、IME-TYPE和不同的二进制文件格式,来获取相应文档的Parser来进行解TextformatsTXTParser类编码自动检测析。ParseContext为解析环境参数。Audioformats音频解析使用javax.sound3.2.2自动检测函数(1)文档内容自动检测Imageformats图像元数据提取库JpegParser和TiffParser文档内容自动检测通过org.apache.tika.detect.Detector类实现,接口函数自动检测文档类型,所有的检测内容不同的方式VideoformatsFLVParser类只支持Flash视频格式J

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。