综合数据检索

综合数据检索

ID:47016512

大小:448.50 KB

页数:4页

时间:2019-05-28

综合数据检索_第1页
综合数据检索_第2页
综合数据检索_第3页
综合数据检索_第4页
资源描述:

《综合数据检索》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、结构化数据和非结构化数据综合检索技术黄金金1王昭顺1戴桂兰2(1.北京科技大学信息工程学院计算机系,1000832.清华大学信息技术研究院,100084)摘要:本文提出了一种对结构化数据和非结构化数据综合检索的软件架构方案。解决了以往由于结构化数据和非结构化数据的性质差异很大,一直以来采用不同的检索方式进行分开的数据检索处理,对来自数据库的结构化数据一般采用SQL语句进行检索,而对非结构化数据则采取索引检索的方式。但无论采用哪种检索方式都会因无法兼顾到另外一种数据形式的检索而造成检索结果不全面、不完整的问题。关键词:结构化数据检索非结构化数据检索查询语句

2、适配器Abstract:AnewkindofretrievalsoftwarearchitectureaboutstructureddataandNon-structureddatawasproposedinthispaper.Inthepast,becauseofthegreatdifferencesbetweenthem,wehavetousedifferentwaystodealwiththeirdataretrieval.WehavebeenusingSQLstatementsinthestructureddatabasesearch,andus

3、ingindexsearchinthenon-structureddataretrieval.Butregardlessofwhichsearchmethodwastaken,itwillbringtheincompleteproblem.Nowthearchitectureresolvetheproblem.Keyword:structureddataretrieval,Non-structureddataretrieval,querysentencesadapter引言数据类型大致可分为两种:一种是可以用相同的层次结构来表示的数据即结构化数据,通常以

4、数据表的形式存放在数据库中;另外一种是以Txt文本、Word文本、Pdf文本等形式存放在FTP中,无法用统一的结构来表示的非结构化数据。本系统的特点在于实现了对结构化数据和非结构化数据的综合检索,适用于异构数据同时存在的应用环境。系统为用户屏蔽了后端数据源的差异,只要输入关键词,就会自动对数据源中的数据进行检索,最终将经过加亮处理的结果展示在用户面前。本系统通过构建查询语句适配器的方法解决了数据库在sql语句的兼容性不够统一的问题,使得用户可以同时对多个不同数据库进行查询,无需在多数据库间转换查询语句。同时提出一种摘要生成算法,对异构数据检索结果进行封装

5、处理,解决了传统数据库查询通常简单返回相应字段的内容,用户无法对查询关键词进行准确定位的问题。本系统可以基于用户输入的关键词显示相应字段的内容,并对其进行准确定位,使用户能够迅速查看到有价值的信息。1.异构数据综合检索系统异构数据综合检索系统架构方案的一种思路是:建立统一索引文件,不论对来自结构化的数据还是来自非结构化的数据,索引工作都是在索引文件的基础上进行的。但统一建立索引会造成索引文件过于庞大,占用过多的硬盘空间,使系统看起来像一个笨重的数据仓库。并且索引文件更新不及时、检索结果实时性差等问题。本系统通过缓冲封装用户输入的查询条件,在未对结构化数据

6、建立索引的情况下实现了异构数据源中结构化数据和非结构化数据的综合检索。同时兼顾了检索数据的安全性和实时性要求。图1综合检索系统总体构建方案图1.1数据源连接层数据源连接层负责构建系统检索环境。对用户屏蔽后端差异,无论检索源是存放结构化数据的普通数据库还是存放非结构化文档的FTP,只要用户正确的提供连接信息,系统将自动连接上数据源。1.2数据透明检索层数据透明检索层负责为结构化数据和非结构化数据提供统一、方便的检索入口,用户可以从模糊检索、精确检索、加减号限定检索、逻辑检索等方式中选择符合自己检索习惯的检索方式。检索层将对用户输入的检索信息进行规范(输入字

7、符的编码转换、过滤非法字符、识别特殊符号的含义),如果为复杂查询输入,则进行查询逻辑处理,生成复合查询条件,连同用户选择的检索范围一同封装起来作为通用的检索输入。后端检索程序负责对系统封装的检索信息进行处理,启用多线程模式,由具体执行线程去分辨底层依赖的数据源信息。根据依赖数据源的不同,以并发的方式传递检索信息、向数据源发起访问。1.3检索结果展示层系统提供了关键词自动定位加亮技术,不论检索结果来自结构数据还是非结构数据,最终检索结果将准确、快速的定位关键词在检索源中出现的位置并以加亮的方式呈现在用户面前。1.可扩展异构数据源连接异构数据源有两大类:(1

8、)普通的数据库,(2)存放非结构文档的FTP。系统在检索数据时采用用户名和密码控

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。