url规则基于聚焦爬行

url规则基于聚焦爬行

ID:6355228

大小:352.04 KB

页数:22页

时间:2018-01-11

url规则基于聚焦爬行_第1页
url规则基于聚焦爬行_第2页
url规则基于聚焦爬行_第3页
url规则基于聚焦爬行_第4页
url规则基于聚焦爬行_第5页
资源描述:

《url规则基于聚焦爬行》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、摘要垂直搜索引擎使用集中爬虫作为关键组件,开发一些特定的算法选择相关的一些预先定义的一组专题网页。因此,如何有效地为特定主题建立一个语义模式是这样的搜索引擎非常重要的。在本文中,我们提出了一个UBFC(URL规则根据doublecrawler基于聚焦爬虫)算法框架(实验履带式和集中履带式)。我们UBFC的内核是一个普通的URL表达学习者,其用于自动学习并推广的URL的规则表达式示例网页。将如此生成的URL正则表达式用于指示UBFC工作。运用UBFC,我们开发了一个基于Nutch的聚焦爬虫的hardwaretoday.com,并得到一个很好的结果。评估UBFC,我们进

2、行了一些实验,通过比较做出的分析有两个提出的方法,在BFSC(广度优先搜索爬虫)和BLFC(基线聚焦爬虫)。1.介绍通用的搜索引擎,如谷歌(www.google.com),为我们提供了很多设施,并成为很受欢迎。然而,它们具有一些缺点[1].因为一个一般用途的搜索引擎的目标是覆盖网络足够越好,因此它通常返回许多网页的用户不感兴趣的内容。此外,它使服务器和无限幅数据的有限资源之间的一些冲突。当用户尝试搜索一些信息,他们通常集中在一些特定的主题。那么垂直搜索引擎,如谷歌产品搜索诞生了。他们搜索特定主题的信息,因此他们只需要抓取网站数据的一小部分,并使用更少的服务器资源来管

3、理所有的互联网话题的具体数据。一般的搜索引擎采用相对简单的爬行策略,以获取尝试所有的网站,同时他们希望设计出高效聚焦爬虫,检索特定主题的网页。大约有重点爬虫是两个关键问题介绍:1)网页选择策略-识别该网页应给予检索什么优先权,并应检索哪或不被检索;2)在网页重访策略-以决定何时重温以前提取的页面,检查的变化。在本文中,我们针对网页选择策略对于垂直腹板爬行,并提出一种两步选择战略基于URL的规则。首先,将试验履带式移动示例的种子网站及其派生(儿童或链接)的网站,以收集实验的网页,从其中的一组URL正的表达式提取到表示一组预先定义的主题。然后,我们使用制定了切实可行的聚

4、焦爬虫被收购集URL规则表达式的抓取网上找到与主题相关的网页的最终用户。本文的其余部分安排如下。我们讨论第2节中集中爬行相关工作第3节,我们介绍了UBFC的体系结构(网址基于规则的聚焦爬虫)。在第4节我们介绍帧和URL的正则表达式的密钥算法学习者,这是UBFC的内核。在第5节我们在测试网站“hardwaretoday.com”使用UBFC并通过它与BFSC和比较评价它的BLFC。我们的结论本文在第6和介绍我们今后的工作。2.相关工作很多研究工作已经摆在的区域选择战略重点爬虫。在早期,研究人员认为链接分析方法一般搜索引擎将比分网页的重要性因素(URL)的,并以第一检索

5、页面具有较高重要的分数。例如,Jungoo卓提出了的PageRank方法排名网页[3]。该网页是根据它们的PageRank[4]的值进行检索。该方法认为网页和忽视的重要性的网页和特定的关系主题。其结果,履带旨在通过使用这种方法很容易失去它们的方向为特定主题和检索较少的特定主题的网页。这些爬虫不应该叫聚焦爬虫因为比的特定主题的网页,以总数的数量检索可能降低到零的网页的[3]。因此它是一个为集中爬虫发现并预测关键问题一个检索网页和特定的关系课题。戴维森[5]使用的TF-IDF[6]向量空间模型计算出了网页间的可比性含100,000页子网上收集该DiscoWeb系统。他提

6、出的概念“专题网页的地方“的意思是两个页面链接通过超链接具有可比性比任何两个较高随机网页。这一发现指出了一个方向为集中爬行。许多研究活动[7-9]是通过这个发现,预测相关性进行网页以及一些特定主题之间。也就是说,如果一个页是相关的一个特定的主题,该超链接的网页通过这将是更容易被与此相关的主题。所以,它更可能找到在其他特定主题的网页从相关的特定主题网链接的帮助。这些爬虫只是利用父亲之间的相关性网页以及一些话题来预测的儿子之间的关系页面和专题监督他们爬行。Altingovde[10]和他的合作伙伴调用这些爬虫底线聚焦抓取(BLFC)。对聚焦两个上述问题爬行可以通过使用概

7、念来解决“主题本地网页“。然而,McCallum的[11]和其它研究人员发现的现象“主题隔离在互联网岛(TII)“。如果我们只检索的网址通过直接链接特定主题的网页,我们会想念“主题孤岛”,这都与特定的话题通过主题无关的网页的网页。作为因此,我们将得到一个低召回率。因此,研究人员试图找到方法来建立领先的路径在“主题孤岛”。例如,使用隧道技术,上下文聚焦爬行[12]被证明能够检索50%-60%以上的相关网页比基线有重点爬行(BLFC)定的时间间隔。玉明烨[13]采用加固学习技术开发iSurfer系统,其收获率上的低进行的实验增加了40%规模(仅抓取1000页)。此外

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。