deep+web数据源发现和采样的研究论文

deep+web数据源发现和采样的研究论文

ID:34717330

大小:8.40 MB

页数:53页

时间:2019-03-10

deep+web数据源发现和采样的研究论文_第1页
deep+web数据源发现和采样的研究论文_第2页
deep+web数据源发现和采样的研究论文_第3页
deep+web数据源发现和采样的研究论文_第4页
deep+web数据源发现和采样的研究论文_第5页
资源描述:

《deep+web数据源发现和采样的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕士学位论文摘要随着技术的进步,知识的积累,越来越多的丰富资源不断地被加入到网络中,使得通过网络就可访问的数据量呈现巨大的增长。尤其是在近一二十年的时间内,随着各种商业应用的广泛推广,各种各样的大型数据库建立起来。银行、商店、学校、学术机构、政府、媒体、图书等等,通过互联网,人们能查到几乎所有领域的信息。由于信息的复杂多样,使得整个W曲看似杂乱无章,但如果按这些信息可被访问的途径,可以将其划分为SurfaceWeb(浅层网络)和DeepWeb(深层网络)两个部分。一般来说,SurfaceWeb是指那些有固定的超链接地址,能被传统搜索引擎索引或者通过其他页面访问到的静

2、态网页的集合。而DeepWeb是指网络中不能被传统搜索引擎索引到的那部分内容,尤其是指那些实时产生的动态页面,如利用JavaScript等脚本语言动态产生内容的页面。据研究,DeepWeb中蕴藏着海量高质量数据,为了能够充分利用这些宝贵的数据资源,以对其进行深入的分析和挖掘,我们必须获取这些高质量的数据。对DeepWeb的数据获取过程也是数据集成过程的第一步,其他两个步骤分别为数据抽取和数据整合。数据获取的主要任务就是限定某一特定领域,发现尽可能多的数据源,在对所获取的数据源进行科学评估后,选择优质的数据源,然后,最大限度地获取这些优质数据源中的数据。本文主要针对基于搜索引

3、擎的DeepWeb数据源发现与选择中的三个问题展开研究:1.在发现Deepweb数据库查询接13页面时,如何构建高相关性的关键词集合并向搜索引擎提交有效的查询,使得含有Web数据库的页面尽可能多地出现在查询结果中,并使其排名尽量靠前。2.发现DeepWeb查询接口页面后,通过观察可以发现,页面中一般有多个查询接口,传统的搜索引擎接口、元搜索接口和W曲数据库的查询接口都在同一个页面上。根据对汽车网站的观察,有的页面上甚至有七八个不同功能的查询接口。如何从众多接口中识别出我们需要的Web数据库查询接口,进而抽取出查询接口,需要更加有效的方法。山东大学硕士学位论文3.由于Deep

4、Web数据源数量多、内容广泛、数据量巨大,所以,如果在本地建立完整的可用数据库将是一项耗费巨大人力、物力、财力的工程,并且,DeepWeb数据源数据更新速度快,建立本地数据库后需要不定期地进行更新操作。由于我们是通过查询接口来获取数据的,所以,更新操作并不能自定义时间段来获取我们想要的特定数据,因而,更新操作也会带来很多问题。鉴于此,我们提出在本地建立一个DeepWeb数据源的样本库,定期从DeepWeb数据源中获取一定量的样本来描述这个数据源的数据。在取样时,如何选取最具有代表性的关键字作为查询词来获取数量大、分布均匀的数据是一个亟待解决的问题。针对研究中发现的以上问题,

5、本文对基于搜索引擎的DeepWeb数据源的发现和选择的问题展开研究,提出了基于源代码的页面分块算法,提出了一种构建高相关性关键词集合的方法,并充分利用这些关键词来对数据进行采样,并对采样效果进行分析,计算出其偏差。主要工作和成果概括如下:1.提出了一种构建高相关性关键词集合的方法,充分利用知识关联网络的概念,从本地数据库中提取出领域内的文献资料,在对信息进行处理后,得到一个基于图的关键词关联网络,其中,各个关键词具有相应的权重。2.提出一种面向领域的DeepWeb查询接口自动发现方法。通过对网页源代码、页面视觉信息进行综合利用,来确定一个页面中的DeepWeb查询接口。使用

6、页面块分割算法来将页面分成几个不重叠的区域,然后对代码进行分析,来发现其中的接口,再利用面向领域的关键字来向服务器提交查询,通过对返回结果进行分析来确定真正的DeepWeb查询接口。3.提出一种基于关键词的查询接口的DeepWeb数据源采样方法,使采样过程不再仅限于查询接口中的范围属性,而是引入了更加灵活的关键词属性,解放了查询接口对属性表达形式的限制,有效地从De印Web数据源中获得近似随机的高质量数据样本。关键词:DeepWeb数据获取:查询接121判定;DeepWeb数据源采样;DeepWeb数据抽取山东大学硕士学位论文ABSTRACTW曲thedevelopment

7、oftechnologyandaccumulationofknowledge,agreatvarietyofrichresourcesareconnectedintonetwork,whichmakesahugeincreaseinamountofaccessibledataoninternet.Furthermore,inrecentdecades.嬲thepopularizationofvarlouscommercialapplications,allsortsoflargedatabasesweresetup

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。