deep+web数据源发现和采样的研究论文

ID：34717330

大小：8.40 MB

页数：53页

时间：2019-03-10

资源描述：

《deep+web数据源发现和采样的研究论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、山东大学硕士学位论文摘要随着技术的进步，知识的积累，越来越多的丰富资源不断地被加入到网络中，使得通过网络就可访问的数据量呈现巨大的增长。尤其是在近一二十年的时间内，随着各种商业应用的广泛推广，各种各样的大型数据库建立起来。银行、商店、学校、学术机构、政府、媒体、图书等等，通过互联网，人们能查到几乎所有领域的信息。由于信息的复杂多样，使得整个W曲看似杂乱无章，但如果按这些信息可被访问的途径，可以将其划分为SurfaceWeb(浅层网络)和DeepWeb(深层网络)两个部分。一般来说，SurfaceWeb是指那些有固定的超链接地址，能被传统搜索引擎索引或者通过其他页面访问到的静

2、态网页的集合。而DeepWeb是指网络中不能被传统搜索引擎索引到的那部分内容，尤其是指那些实时产生的动态页面，如利用JavaScript等脚本语言动态产生内容的页面。据研究，DeepWeb中蕴藏着海量高质量数据，为了能够充分利用这些宝贵的数据资源，以对其进行深入的分析和挖掘，我们必须获取这些高质量的数据。对DeepWeb的数据获取过程也是数据集成过程的第一步，其他两个步骤分别为数据抽取和数据整合。数据获取的主要任务就是限定某一特定领域，发现尽可能多的数据源，在对所获取的数据源进行科学评估后，选择优质的数据源，然后，最大限度地获取这些优质数据源中的数据。本文主要针对基于搜索引

3、擎的DeepWeb数据源发现与选择中的三个问题展开研究：1．在发现Deepweb数据库查询接13页面时，如何构建高相关性的关键词集合并向搜索引擎提交有效的查询，使得含有Web数据库的页面尽可能多地出现在查询结果中，并使其排名尽量靠前。2．发现DeepWeb查询接口页面后，通过观察可以发现，页面中一般有多个查询接口，传统的搜索引擎接口、元搜索接口和W曲数据库的查询接口都在同一个页面上。根据对汽车网站的观察，有的页面上甚至有七八个不同功能的查询接口。如何从众多接口中识别出我们需要的Web数据库查询接口，进而抽取出查询接口，需要更加有效的方法。山东大学硕士学位论文3．由于Deep

4、Web数据源数量多、内容广泛、数据量巨大，所以，如果在本地建立完整的可用数据库将是一项耗费巨大人力、物力、财力的工程，并且，DeepWeb数据源数据更新速度快，建立本地数据库后需要不定期地进行更新操作。由于我们是通过查询接口来获取数据的，所以，更新操作并不能自定义时间段来获取我们想要的特定数据，因而，更新操作也会带来很多问题。鉴于此，我们提出在本地建立一个DeepWeb数据源的样本库，定期从DeepWeb数据源中获取一定量的样本来描述这个数据源的数据。在取样时，如何选取最具有代表性的关键字作为查询词来获取数量大、分布均匀的数据是一个亟待解决的问题。针对研究中发现的以上问题，

5、本文对基于搜索引擎的DeepWeb数据源的发现和选择的问题展开研究，提出了基于源代码的页面分块算法，提出了一种构建高相关性关键词集合的方法，并充分利用这些关键词来对数据进行采样，并对采样效果进行分析，计算出其偏差。主要工作和成果概括如下：1．提出了一种构建高相关性关键词集合的方法，充分利用知识关联网络的概念，从本地数据库中提取出领域内的文献资料，在对信息进行处理后，得到一个基于图的关键词关联网络，其中，各个关键词具有相应的权重。2．提出一种面向领域的DeepWeb查询接口自动发现方法。通过对网页源代码、页面视觉信息进行综合利用，来确定一个页面中的DeepWeb查询接口。使用

6、页面块分割算法来将页面分成几个不重叠的区域，然后对代码进行分析，来发现其中的接口，再利用面向领域的关键字来向服务器提交查询，通过对返回结果进行分析来确定真正的DeepWeb查询接口。3．提出一种基于关键词的查询接口的DeepWeb数据源采样方法，使采样过程不再仅限于查询接口中的范围属性，而是引入了更加灵活的关键词属性，解放了查询接口对属性表达形式的限制，有效地从De印Web数据源中获得近似随机的高质量数据样本。关键词：DeepWeb数据获取：查询接121判定；DeepWeb数据源采样；DeepWeb数据抽取山东大学硕士学位论文ABSTRACTW曲thedevelopment

7、oftechnologyandaccumulationofknowledge，agreatvarietyofrichresourcesareconnectedintonetwork，whichmakesahugeincreaseinamountofaccessibledataoninternet．Furthermore,inrecentdecades．嬲thepopularizationofvarlouscommercialapplications，allsortsoflargedatabasesweresetup

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 53



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

deep+web数据源发现和采样的研究论文

deep+web数据源发现和采样的研究论文

相关文章

相关标签