Web数据库集成技术及其发展趋势.doc

Web数据库集成技术及其发展趋势.doc

ID:50338112

大小:66.00 KB

页数:7页

时间:2020-03-08

Web数据库集成技术及其发展趋势.doc_第1页
Web数据库集成技术及其发展趋势.doc_第2页
Web数据库集成技术及其发展趋势.doc_第3页
Web数据库集成技术及其发展趋势.doc_第4页
Web数据库集成技术及其发展趋势.doc_第5页
资源描述:

《Web数据库集成技术及其发展趋势.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Web数据库集成技术及其发展趋势摘要:从集成架构角度介绍Web数据库集成技术的发展现状,并对web数据库集成技术的发展趋势进行分析。关键词:Web数据库;DeepWeb;数据库集成中图分类号:TP31文献标识码:A文章编号:1671—7597(2012)0510001-020引言现今Web已经成为Iriternet信息获取和资源共享的重要手段,整个Web中几乎包含了大量我们所需要的信息。其中海量的Web数据库分布在世界各地,内容涵盖了现实世界的各个领域,是十分丰富而重要的信息资源,这种Web中蕴含的深度信息也称为DeepWeb,是目前一个新兴的研究领域,由于Web数据在形式、内容

2、和结构上有很大差异,从中自动获取有价值的信息并不容易,如何有效地利用这些信息资源是一项迫切而有挑战性的工作,Web数据库集成技术立足以自动的方式对海量、异构以及无序的Web数据库进行有效的利用,随着Web应用在深度和广度上的不断拓展,Web数据库集成技术显示出了广阔的发展空间和重要意义。1Web数据库集成框架随着人们对DeepWeb领域的关注,Web数据库集成技术得到了很大的发展,同时也存在着许多的研究问题,有必要对Web数据库集成框架有一个全面的认识,文献[1]中给出了一种较为全面的DeepWeb数据集成系统架构,该架构将Web数据库集成系统划为三个模块:查询接口集成模块、查询

3、处理模块和查询结果处理模块,见图1,下面就此架构对Web数据库集成的各模块进行介绍:1.1查询接口的集成查询接口的集成包括web数据库发现、查询接口模式抽取、Web数据库分类和查询接口集成:Web数据库发现指在大量web网站中发现可访问的数据库,按照先找到网站,再发现数据库查询接口的步骤进行,第一步的解决方法有:从已有的按领域分类的Web数据库网站中获取,如completeplanet,com等,但规模有限;理论上可以遍历所有网络IP,找出含有的Web数据库,但实际代价过高;通过向搜索引擎提交有效的查询,尽可能多地找到某个领域的Web数据库网站,文献提出了一种基于机器学习的查询自

4、动生成器方法来为搜索Web数据库提供互动查询建议,并能提高搜索效率,对第二步解决的关键是如何将查询接口从网站大量的Form元素中准确地区分出来以及降低代价,目前的解决方法主要通过对查询接口的位置、标识及搜索深度等特征分析来高概率识别查询接口。查询接口模式抽取是指通过对查询接口的属性进行分析和重组,获得完整的查询接口特征集合,模式抽取的关键是如何准确地抽取查询接口中包含的各个属性,主要的解决方法有采用文法分析、页面结构分析、本体技术等对属性进行抽取,其中已经开发的抽取工具WISE-iExtractor适合于复杂接口的抽取。Web数据库分类即按照抽取的查询接口模式信息对web数据库进

5、行分类,由于查询接口通常按照领域进行集成,web数据库同样按领域进行分类,所以这种分类实质上是对查询接口的分类,由于web数据库数量庞大,人工进行分类显然是不现实的,所以主要研究web数据库的自动分类,web数据库分类通常有两种方式,一类是根据查询数据库返回的结果页面内容进行分类,另一类是根据网页页面及表单中的文本信息对数据库进行分类,其中使用了网页上下文感知、领域样本查询以及模型匹配等技术方法。查询接口的集成过程最后利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系,从而获得一个属于特定领域、集成的查询接口,目前查询接口集成技术得到了较为广泛的研究,技术日趋成熟

6、,已经提出并实现了查询接口集成的原型系统。1.2查询的处理查询的处理是指将用户在集成接口上的查询转化到对各个Web数据库的本地查询,这部分包括web数据库选择、查询转换和查询提交子模块:Web数据库选择涉及到如为特定用户何选取合适的数据源。其中降低访问数据库的数量和查询结果的冗余是关键问题,这需要解决web数据库特征获取的问题,结构化的web数据库主要是关注各个属性上值的分布特征,而非结构化的web数据库主要关注特定查询返回结果的数量,而对于搜索引擎的选择目前已有了许多较为成熟的工作,其中一些技术思想可以借鉴到对结构化的web数据库选择的实现中。查询转换是指将用户在集成查询接口上

7、提交的查询转换到Web数据库本地的查询,查询提交是指自动地将转换后的查询进行提交,其关键是如何在集成查询接口与数据库本地查询接口之间进行等价的查询转换,从而提高查询的准确性,由于Web数据库分布在不同地点且具有自治性,不同数据库查询接口千差万别,集中体现在查询接口的形式定义及查询能力的不同上,因此要做到完全的等价转换似乎是不可能的,只能进行近似的转换,其中模式匹配问题贯穿查询处理的整个过程,对查询的准确性产生重要影响。1.3查询结果的处理查询结果的处理是指将各个web数据库返回的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。