数据空间查询索引分析

数据空间查询索引分析

ID:32198969

大小:514.00 KB

页数:32页

时间:2019-02-01

数据空间查询索引分析_第1页
数据空间查询索引分析_第2页
数据空间查询索引分析_第3页
数据空间查询索引分析_第4页
数据空间查询索引分析_第5页
资源描述:

《数据空间查询索引分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华侨大学硕士论文结果可能不是最精确的。1.1.2数据空间查询索引技术虽然数据空间中数据的内容林林总总各不相同,但我们可以从数据是否具有结构这一角度将数据划分为三类:文本文档、图像、音频等非结构化数据,这类数据不具有内在结构;第二类为严格遵照模式生成的结构化数据,以关系数据库为代表,通过二维的关系表组织数据,并通过主外键关系表达数据间的关联。第三类是半结构化数据,它界于前两种数据之间,具有一定的结构,但这种结构具有不确定性,XML文档就属于这一类型的数据。针对这三种类型的数据所采用的查询方法也不尽相同。目前主流的查询技术主要有两类,一是DBMS系统中的结构化查询

2、。结构化查询语言有其固定的语法,查询必须在预先定义好的模式的基础上进行,从而得出精确的查询结果。另一类是信息检索系统中常用的基于关键字的搜索,这一技术广泛应用于搜索引擎中。用户无需知道具体的模式信息,只需通过输入关键字既可找到相应的数据片断。但由于关键字查询缺乏相应的语义信息,其查询能力和效率都很低。这两种查询方式,都不能很好地满足数据的查询需求,我们需要将关键字搜索和结构化查询结合起来,支持更加复杂灵活的查询需求。1.2论文研究内容1.2.1论文的主要工作传统的数据管理系统,每一种系统管理一种类型的数据,而不同类型的数据有各自不同的管理及查询方式。例如数据库

3、中的结构化数据,因其具有对数据管理人员来说是至关重要的明确的模式信息,使得数据管理人员可以根据这些模式信息对数据进行管理。用户在查询时,通过结构化查询语言指定查询属性信息,便可得到精确的查询结果。但其对以全文检索方式进行的关键字查询不能提供良好的支持。与结构化数据不同,半结构化数据和非结构化数据的模式信息是不明确的或根本不存在,他们的存储管理也是灵活多变的,对这些数据的查询,也因缺乏相关的模式信息,更偏向于模糊查询,既返回的查询结果并不是精确的,多采用关键字查询方式,这样的查询结果,存在很大的数据冗余。在数据空间领域,我们所要管理的数据更加复杂,这些数据来自不

4、同的数据源,数据类型也各不相同,既有结构化数据也有半结构化和非结构化的数据,,如何对这些异质的数据进行统一的管理成为数据空间研究的一大难点。在数据空间管理系统中,我们采用基于刻面的数据模型,通过对各个数据源不同刻面信息2华侨大学硕士论文的描述实现对数据源的管理并为用户提供更好的服务。本文的研究重点:对数据空间中来自不同数据源的异构数据建立统一的索引模型,创建一套新的索引机制,以支持对数据空间的查询搜索,即所建立的索引能将关键字查询与结构化查询进行有机的结合,返回更具语义信息的结果。1.2.2国内外相关研究非结构化数据的关键字检索信息检索系统就是帮助用户查找到特

5、定信息的一种工具。为了达到这一目的,信息检索系统需要能够对信息进行正确的表示、存储和组织,同时还要提供对于信息的访问方式。信息检索技术实现了对非结构化数据的检索.它首先确定了系统的检索模型并在这一模型基础上对文档进行了查询和定义,给出查询的相似度计算公式,最后通过用户界面返回给用户。在信息检索系统中常用的模型包括布尔模型,向量模型和概率模型等。为了提高查询效率,搜索引擎研究领域给出了一个经典的排序算法――PageRank.该算法一种基于被称为随机冲浪模型的用户行为模型:假设有一个随机的网络冲浪者,他从任意给定的一个网页开始,持续点击链接,直至最终厌倦并开始访问

6、另一个随机页面,系统将为每个页面都有一个特定的权值,页面PageRank值的计算公式为:假设页面Tl,Tn都有超链接指向页面A。其中PR(A)表示页面A的PageRank值;参数d是一个衰减因子,根据不同情况可以设定d在0到1之间,通常设定为0.85。C(T)表示页面T指向其他页面的链接个数。半结构化数据关键字查询以XML为代表的半结构化数据是介于非结构化数据和结构化数据之间,虽然有一定的模式信息,但这一模式是松散且不确定的。从信息检索的角度来说,仅仅找出用户想要的信息是不够的,而应该返回给用户具有最少无关信息的适当粒度的结果。以XML文档查询为例,我们通常将

7、其转化为树模型,通过模式匹配的方法进行查询,返回元素级的查询结果。这一查询结果是包含了所有查询关键字的文档片断,它以由这些包含关键字的元素为叶节点,这些元素的最小公共祖先点为根,通过元素之间的子孙后代之间的关系连接起来构成文档树。代表性系统有XRANK、XKeyword、XSEarch和XKSearch。XRANK3华侨大学硕士论文XRANK综合考虑了沿边的正向传播、反向传播以及元素间引用的影响,借鉴PageRank算法的思想提出了用于计算元素重要性的EIemRank算法。在XRANK系统中的DII算法通过归并各关键字对应的倒排索引列表找出包含全部关键字的元素

8、。通常当关键字的倒排索引列表很长时,输

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。