hidden+web搜索技术的研究

hidden+web搜索技术的研究

ID:32592205

大小:2.99 MB

页数:49页

时间:2019-02-13

hidden+web搜索技术的研究_第1页
hidden+web搜索技术的研究_第2页
hidden+web搜索技术的研究_第3页
hidden+web搜索技术的研究_第4页
hidden+web搜索技术的研究_第5页
资源描述:

《hidden+web搜索技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一章前言HiddenWeb的特点及产生原因,主要研究了HiddenWeb查询接口的识别方法和表单关键词选择算法,从理论和实验两方面对接口识别方法和关键词选择算法做了详细的论述。1.1.2研究意义(1)通过对基于结构和内容的Web分块方法的研究,可以从结构和内容两个方对Web页面进行综合考虑,从而可以准确的提取出Web页面的主要内容,特别是对于主要内容中夹杂着不相关信息的页面,提取效果同样很好。这种方法不但可以有效地识别并提取出页面中的表单信息,简化HiddenWeb接口识别的难度,而且可以对Web挖掘的页面进行预处理,提高挖掘的效率。(2

2、)通过研究HiddenWeb查询接口识别方法和关键词选择算法,可以自动完成HiddenWeb查询接口识别,并使用较少样本估计的方法自动选择最优的关键词进行提交。这样不但省去了用户逐个提交关键词的麻烦,而且对多数HiddenWeb站点普遍适用,不用对每类HiddenWeb站点都建立特殊的样本词库。(3)如果按上述两种方法对现有搜索引擎做出改造,使其可以识别查询接口并且可以自动选择关键词,则现有的搜索引擎就不但可以索引普通HTML页面,对于提供查询接口的HiddenWeb也可以进行索引,使搜索引擎对Web的覆盖率大大提高。1.2国内外研究现状国

3、外对HiddenWeb的研究已经有10年左右的时间,研究成果既有综述性的介绍,也有搜索方法的探索性研究。与国外相比,国内的研究起步晚一些,综述性的研究较多。但是随着对HiddenWeb研究的深入,其价值也越来越受到国内研究者的重视。1.2.1国外研究现状在2000年,BrightPlanet公司针对HiddenWeb的规模和相关性进行了研究,Bergman【3】的报告指出,截止2000年大约有96000个提供Web查询的站点。但到了2004年4月,文献【4】指出这样的查询站点已经增长到了大约450000个,增长速度十分迅速。BrightPl

4、anet的研究报告被广泛引用,但是也有人提出了质疑。ChrisSherman就声称BrightPlanet公司测量HiddenWeb规模的技术存在缺陷【I】’HiddenWeb的规模可能只有表面网络的2.50倍。HiddenWebExposer(HiWE)t5l是Stanford大学的一个研究项目。Raghavan和Garcia.Molina设计了一种可以抽取HiddenWeb内容的Crawler。在此系统中Crawler管理器负责管理搜集过程。它对下载的Web页面进行分析,包含表单的页面被送到表单处理2中国石油大学(华东)硕L学位论文器中

5、专门处理。表单处理器先从页面中抽取出表单,再从预先准备好的数据集中选择数据自动地完成表单的填写,然后将合成的URL提交Crawler管理器去下载相应的结果页面。由于需要系统自动完成表单填写,所以要求用户事先准备相应的表单数据集。HiWE只能面向特定的领域使用,而且必须在人工帮助下进行工作。此方法还很难在没有限制条件的情况下使用。哥伦比亚大学的PanagiotisG.Ipeirotist等人在文献【6】中讨论了自动地将HiddenWeb网页所连接的后台数据库进行分类的方法。它首先使用自动学习技术生成一套基于规则的分类器(ClassifieO。

6、然后将分类器转变成查询URL,对后台数据库进行查询,计算查询结果。他们的算法最后根据查询结果对数据库进行分类。该方法在进行数据库分类前需要大量的训练数据。1.2.2国内研究现状在文献【7】中,作者详细介绍了HiddenWeb的成因、分类以及研究意义等内容。文章从传统搜索引擎的产生和发展历史出发,对HiddenWeb的成因作了很深入的分析,并得出了HiddenWeb不可见的两个重要原因:技术障碍和搜索引擎对Spider的访问限制。在文献【8】中,作者给出THiddenWeb表单抽取的TTOE(Tag-Tree—basedObjectExtra

7、ction)技术。要想自动地从一个网页中将表单及相关说明信息抽取出来,难度很大。这主要有以下一些原因:在Web页面显示时,靠近表单项用来说明表单内容的文本信息,可能在HTML文本结构中是和表单项本身分离的。有些表单项周围根本没有相关的文本来说明表单内容,而是通过选项本身来说明的。特别是对于整个表单的功能,大多数都没有文本直接说明。TTOE技术给解决上述问题提供了一种解决思路:首先将Web页面表示成树型结构,然后再以此树为基础进行表单对象的抽取。整个工作由四个步骤组成:网页标准化,树结构生成,表单分析,表单对象索引。文献[9】提出了一种基于图

8、模型的HiddenWeb数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,通过样本分析对后台数据库进行分类。文献[10】提出了一种基于词频统计的方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。