全文检索方案.doc

全文检索方案.doc

ID:55560544

大小:1.50 MB

页数:13页

时间:2020-05-17

全文检索方案.doc_第1页
全文检索方案.doc_第2页
全文检索方案.doc_第3页
全文检索方案.doc_第4页
全文检索方案.doc_第5页
资源描述:

《全文检索方案.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1全文检索系统方案1.1全文检索系统总体方案系统将采用以下全文检索流程。针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引

2、库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持在最新状态。1.1全文检索系统平台架构本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。ü信息整合此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构

3、化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后期信息萃取和服务。ü信息萃取和服务在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。ü应用整合本系统还提供了完整的外部程序整合机制。所有组件均提供SDK完整开发接口

4、,方便应用整合和应用扩展。1.1.1信息整合此部分主要提供对企业内外部非结构性数据信息源建立自动化数据汇入功能。根据用户实际需求,用户可以选择导入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中文、简体中文等;同时用户可以选择导入数据库数据,如Oracle、Informix、Sybase、MSSQL等。此外和Notes系统也已经有了无缝整合,可

5、挂载NotesComposer对nsf库中正文及附件信息索引,在做索引的过程中自动把每笔记录的权限键入索引库。本系统提供可挂载的数据适配器(DataAdapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信息检索与管理。以e-mail含附件为例,e-mailAdapter可解析e-mail内文,而当选购officeAdapter后,原来的e-mailAdapter即可解析office相关的附件文件,可视需求额外购买PDF、ZIP、

6、RAR、OCR等不同数据适配器,即可交互搭配使用。搭配使用本系统的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta资料提取器,将可解析Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文、Unicode等;使用数据库数据适配器,将可支持数据库数据汇入处理如Oracle、Informix、Sybase、MSSQL等。1.1.1信息萃取和服务此部分

7、须提供对数据提取的内容所包含的信息,进行数据处理分析,包含:ü分类模式建立自动分类功能。ü针对非结构性数据建立词库,词库须包含同音词库、同义词库、专业词库。ü自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。ü可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不同等级提供不同权限的查询功能接口。应用本系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者需求。同时,用户利用本

8、系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。