异构数据源集成系统查询优化

异构数据源集成系统查询优化

ID:11058199

大小:28.00 KB

页数:6页

时间:2018-07-09

异构数据源集成系统查询优化_第1页
异构数据源集成系统查询优化_第2页
异构数据源集成系统查询优化_第3页
异构数据源集成系统查询优化_第4页
异构数据源集成系统查询优化_第5页
资源描述:

《异构数据源集成系统查询优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、异构数据源集成系统查询优化摘要异构数据集成系统需要处理大量的数据,且各数据之间的结构大不相同,严重影响了查询速度,因此必须采取优化措施改善查询效率。本文结合实际,谈谈利用缓存技术和预取技术对查询进行优化的思路。关键词异构数据源;集成系统;查询优化中图分类号TP392文献标识码A文章编号1674-6708(2012)73-0223-02伴随着计算机网络的不断普及和WorldWideWeb的出现,导致若干Web异构数据源形成,异构数据源集成为这些自然分布的异构数据源提供了完整的模式和较为一致的接口,可以消除异构、实现数据源的

2、透明分布。对于系统查询而言,网络信息量的大幅增加与网络延迟二者之间形成了强烈的反差及矛盾,导致网络拥挤不堪,使得网络用户难以获得应有或理想的服务效果。异构源数据源集成系统中,由于不同数据源具备着不同的查询功能及不同效率,使得系统往往需要进行大量的数据处理工作,因此必须对系统的查询功能进行优化。6为使其延迟性得到系统改善,优化过程中必须以缩减系统处理用户请求的时间为前提基础。对于计算机网络中存在的各种不同存储结构的数据,所有异构数据源集成系统均可以实现集成,因此对于HTML、XML文件等半结构化数据源,DBMS等可处理结构

3、化数据源和文本文件等非结构化数据源等都能处理[1]。异构数据集成系统需要处理大量的数据,且各数据之间的结构大不相同,严重影响了查询速度,因此必须采取优化措施改善查询效率。本文结合实际,谈谈利用缓存技术和预取技术对查询进行优化的思路。1缓存技术通常情况下将程序中响应消息的本地存储区以及控制传输信息存储、删除或获取的子系统,也即是指临时文件交换区[2],将其定义为缓存。利用缓存保存可以对消息进行缓存响应,能够降低网络的带宽消耗和将来的响应时间,对于请求消息也同样适用。6异构数据源集成系统具有很高的数据查询能力,能够实现对大量

4、HTML、XML以及文本文件等进行处理,通常情况下,该类数据文件的查询速度较慢,所所有的查询均从局部数据源进行检索,其速度必然很慢。异构数据源集成系统利用缓存技术提高数据查询速度,它有效的实现所有用户对全局视图查询结构的缓存存放,同时对新结果不断更新,以此来替代数据源中的旧有的结果,从而有效提高缓存中数据的检索命中率。在缓存中,保存查询所需的全局视图名和选择条件,如果用户的查询与这些条件符合,可以由缓存直接读取查询结果。如用户所需的查询结果未存在于缓存中,然后再将查询内容进行分解,并将分解后的结果送至各数据源,以此来获取

5、整个数据查询结果。通常缓存中可以命中的查询结果越多其查询速度也就越快,这与缓存采用的替换算法有很大关系。在选择缓存的的替换算法时,可以进行如下考虑:1)局部视图变化后,对缓存中旧的内容进行修改;2)当数据源中的数据不断更新时,比较适合采用LRU替换算法;3)由于不同数据源的数据具有不同的访问,由此看来传统的LRU算法亟待改进,根据不同数据其访问品读的不同,将Cache块划分成不同的区域,同时将所有数据源均单独分配一个独立区域,同时该区域内容只允许请求结果进行替代。6通过缓存技术的应用,有效改善了系统性能,然而任何事物都有

6、其两面性,缓存技术也一样,当缓存中所对应的存储局部视图出现了一定变化时,就会产生缓存中的数据结果与局部数据源数据结果不一致的现象,必须进行刷新。针对这一情况,根据不同的应用需求,异构数据源集成系统采取按需刷新和定期刷新的方式进行数据源的刷新。定期(根据数据源信息更新的时间确定)对局部视图检查,看其是否有所变化,同时根据其变化来对缓存内容作出相应的修改,对于一些需要快速响应的查询处理,可从缓存种中直接进行数据的读取。当然缓存内容一般会对局部视图在两次刷新前改变的情况不能进行很好的反映。如果是一些对精准度要求极高的查询需求,

7、定期的刷新显然已无法满足用户的需求了。异构数据源集成系统则可以弥补其不足,通过按需刷新的方式,若出现新用户查询请求时,首先对缓存中视图变化进行检查,若缓存视图中未出现变化情况,可直接提出缓存中的相应数据结果,如果缓存中查不到所需结果,则对查询进行分解,在各个数据源中查询更新后的数据,同时修改缓存的内容。2预取技术缓存技术具有统一模式的机制特点,预取技术弥补了它的这一不足,在提高互联网信息检索速度上受到越来越多的重视,在备受关注的Web检索系统中有着十分广泛的应用[3]。其技术理论依据为:首先使用者在向服务器发出两次HTT

8、P请求间存在一定的使用者空闲和思考时间,其长度一般为几秒到几分钟不等。若想将此段时间充分利用,即将使用的文件提前进行取回,并将其存放于缓存中,以此来减少相应等待的时间。也即是将用户即将访问的数据,在用户的请求发出之前,先放置于缓存中,当用户对其数据发出相应的请求信息后,由于该数据已经提前存放于缓存中,便可有效减少用户

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。