deepweb数据集成问题研究

deepweb数据集成问题研究

ID:30971168

大小:725.50 KB

页数:17页

时间:2019-01-04

deepweb数据集成问题研究_第1页
deepweb数据集成问题研究_第2页
deepweb数据集成问题研究_第3页
deepweb数据集成问题研究_第4页
deepweb数据集成问题研究_第5页
资源描述:

《deepweb数据集成问题研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、DeepWeb数据集成问题研究刘伟(Web组)孟小峰孟卫一摘要:随着WorldWideWeb(WWW)的飞速发展,DeepWeb中蕴含了海量的可供访问的信息,并且还在迅速的增长。这些信息要通过查询接口在线访问其后端的Web数据库。尽管丰富的信息蕴藏在DeepWeb中,由于DeepWeb数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作。DeepWeb数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题。总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡。本文提出了一个DeepWeb数据集成的系

2、统架构,依据这个系统架构对DeepWeb数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析。1、引言随着WorldWideWeb的飞速发展,其中蕴含了海量的信息可供我们利用。根据文献[1]最新的调查,目前整个Web超过了200,000TB的信息量,而且仍在快速的增长。在Web领域的研究目的在于发展新的技术可以有效地从Web中获取有用的信息。Web中的信息主要通过网页的形式对外发布,而由文本和超链接构成的网页有其独特之处:数量惊人,信息丰富;由不同的个人或群体开发,形式与内容有很大的差异;分布在地

3、球上Internet连接的每一个角落,这就造成了Web数据的异质性和缺乏结构性。正是由于这个原因,使得自动地从中获取有价值的信息和数据变成一件十分具有挑战性的任务。到目前为止,为了有效地利用Web上的信息,所采用的方法涉及了广泛的领域:数据挖掘、机器学习、自然语言处理、统计分析、数据库和信息检索等。整个Web看似杂乱无章,但如果按其所蕴涵信息的“深度”可以划分为SurfaceWeb和DeepWeb两大部分。SurfaceWeb是指通过超链接可以被传统搜索引擎索引到的页面的集合。在现实中,有大约21.3%的页面由于缺乏被指向的超链接而没有被搜

4、索引擎索引到,我们把这一部分页面也看作是SurfaceWeb的范畴。而对于DeepWeb,目前还没有一个统一的定义,文献[2]中认为DeepWeb是指Web中不能被传统的搜索引擎索引到的那部分内容,特别是指那些通过查询实时产生的动态页面,但随着搜索引擎爬虫(Crawler)能力的增强,使得DeepWeb这一概念变得复杂不易界定,很难给出一个可以长期一致认同的定义。图1从Web数据库中获取数据的过程在这里我们试图对DeepWeb的范畴给出一个较为完整的描述:DeepWeb是指Web中可访问的在线数据库,这里简称为Web数据库或WDB,其内容存

5、储在真正的数据库中。这些内容只有在被查询时才会由Web服务器动态生成页面把结果返回给访问者(图1),因此没有超链接指向这些页面,这是和那些可以被直接访问的静态页面的根本区别。按照存储信息的结构化程度可以进一步划分为结构化信息、文档信息和非文本文件,网上购物网站存储的信息属于结构化信息,新闻网站存储的信息属于文档信息,二者因结构化程度的不同对其查询所应用的技术也差别很大,而非文本文件,主要包括多媒体文件、图像文件、软件和特定格式的文档(比如PDF文件)。在一般的意义下,我们对DeepWeb信息的获取更关注的是对结构化信息的获取,而不是文档或非

6、文本文件。其原因不难理解,对结构化数据的集成更有意义,可以采用的技术也更丰富。DeepWeb数据集成也主要是指对结构化信息的集成。随着Web相关技术的日益成熟和DeepWeb所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,而对DeepWeb的研究也越来越受到人们的关注。与SurfaceWeb相比,DeepWeb蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息。在2000年7月,Brightplanet对DeepWeb做了一次较为全面的宏观统计,发布了DeepWeb的白皮书http://www.brightpl

7、anet.com/technology/DeepWeb.asp(在该文中Brightplanet对DeepWeb的定义主要指的是Web数据库),指出整个Web上大约有43,000-96,000个Web数据库,并从宏观上对DeepWeb做了定量的调查统计,下面列出其中部分的调查结果:·DeepWeb蕴含的信息量是SurfaceWeb的400-500倍。·对DeepWeb数据的访问量比SurfaceWeb要高出15%。·DeepWeb蕴含的信息量比SurfaceWeb的质量更高。·DeepWeb的增长速度要远大于SurfaceWeb。·超过50

8、%的DeepWeb的内容是特定于某个域的,即面向某个领域。·整个DeepWeb覆盖了现实世界中的各个领域,比如商业、教育、政府等等。·DeepWeb上95%的信息是可以公开访问的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。