欢迎来到天天文库
浏览记录
ID:19424332
大小:13.17 KB
页数:37页
时间:2018-10-02
《计算机科学与技术专业毕业论文 [精品论文] 主题爬虫搜索web页面策略的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、计算机科学与技术专业毕业论文[精品论文]主题爬虫搜索Web页面策略的研究关键词:主题爬虫搜索引擎马尔科夫规则PageRank算法文本分类算法摘要:随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方
2、法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工
3、作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。正文内容随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式
4、的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。随着互联网的高速发
5、展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要
6、为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬
7、虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,
此文档下载收益归作者所有