欢迎来到天天文库
浏览记录
ID:31364356
大小:107.50 KB
页数:6页
时间:2019-01-09
《主题搜索引擎中网络爬虫的实现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、主题搜索引擎中网络爬虫的实现研究 摘要:信息时代,互联网充斥着我们生活的方方面面,而搜索引擎的应用为我们的生活带来了极大的便利。对搜索引擎中网络爬虫的实现的研究,对于提升搜索引擎效率有着重要的意义。本文分析了面向主题的搜索引擎中网络爬虫的实现,并提出了相应的方法和手段。 关键词:搜索引擎;网络爬虫;实现;设计;主题 中图分类号:TP393文献标识码:A文章编号:1009-3044(2016)17-0023-02 Abstract:Intheinformationage,theInternetisfullofallaspectsofo
2、urlives,andtheapplicationofthesearchengineforourlifebroughtgreatconvenience.Theresearchontherealizationofwebcrawlerinsearchengineisofgreatsignificancetoimprovetheefficiencyofsearchengine.Thispaperanalyzestherealizationofthewebcrawlerinthesubjectorientedsearchengine,andputs
3、forwardthecorrespondingmethodsandmeasures. Keywords:SearchEngine;WebCrawler;Implementation;Design;Theme 1概述6 使用搜索引擎,人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块,是搜索引擎的重要基础。 网络爬虫是一种能自动提取网页内容的程序,利用网页信息格式进
4、行网页分析,也可以定期搜集某个或某些网站的内容,跟踪网站的发展历程。随着网络爬虫技术的快速进步,网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。 2主题搜索引擎简述 搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图,然后快速地返回相关的查询结果信息供用户使用。 大数据时代互联网数据爆炸性地增长,急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难,使信息检索变得更加精确细致,使搜索到的信息更加
5、全面深入,同时使专题信息和学科信息的更新更加及时。 3网络爬虫简述 网络爬虫从一个初始URL队列开始,从中获取一个URL,获取网页,从网页中提取所有的URL,并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL,重复前面的过程,直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。 4网络爬虫分类6 第一个网络爬虫是美国麻省理工学院的学生MatthewGrey于1993年写成,后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步,爬虫程序也越来越复杂,后来
6、产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。 4.1通用爬虫 基本原理上文已分析,但爬取的范围过大,爬取顺序要求低,对爬取速度和存储空间要求较高。 4.2限定爬虫 限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页,只需爬取某些特定种类的网页即可。工作过程是:采用朴素贝叶斯方法用网页样本训练一个文本分类器,然后用这个文本分类器指导爬虫的偏好,从爬虫队列中选择出用户感兴趣的网页。 4.3主题爬虫 主题爬虫先确定一个或多个主题,根据一定的分析算法过滤与主题无关的URL,保留与主题相关的URL并
7、将其放入等待URLs队列中;然后使用某种搜索策略从等待队列中选择下一个要抓取的URL,并重复上述过程,直到达到某种停止条件。 首先主题爬虫需要判定当前抓取与设定的主题的相关性,其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源,加快了爬取速度,还可以满足人们对特定领域的需求。 5主题爬虫的爬取策略6 主题爬虫以通用网络爬虫为基础,在此基础上进行优化和扩展,使其具备主题网络爬虫特有的功能,进而实现面向主题的网页信息提取。 主题爬虫尽可能搜集与主题相关的网页,减少下载无关网页的可能。主题爬虫与
8、通用爬虫相比需要解决以下问题:主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。 面向主题的信息采集系统可分为4个部分,即主题集选取
此文档下载收益归作者所有