计算机科学与技术专业毕业论文 [精品论文] 主题爬虫搜索web页面策略的研究

计算机科学与技术专业毕业论文 [精品论文] 主题爬虫搜索web页面策略的研究

ID:19424332

大小:13.17 KB

页数:37页

时间:2018-10-02

计算机科学与技术专业毕业论文  [精品论文]  主题爬虫搜索web页面策略的研究_第1页
计算机科学与技术专业毕业论文  [精品论文]  主题爬虫搜索web页面策略的研究_第2页
计算机科学与技术专业毕业论文  [精品论文]  主题爬虫搜索web页面策略的研究_第3页
计算机科学与技术专业毕业论文  [精品论文]  主题爬虫搜索web页面策略的研究_第4页
计算机科学与技术专业毕业论文  [精品论文]  主题爬虫搜索web页面策略的研究_第5页
资源描述:

《计算机科学与技术专业毕业论文 [精品论文] 主题爬虫搜索web页面策略的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、计算机科学与技术专业毕业论文[精品论文]主题爬虫搜索Web页面策略的研究关键词:主题爬虫搜索引擎马尔科夫规则PageRank算法文本分类算法摘要:随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方

2、法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工

3、作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。正文内容随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式

4、的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。随着互联网的高速发

5、展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要

6、为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬

7、虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。