基于遗传算法的主题爬虫搜索策略研究

基于遗传算法的主题爬虫搜索策略研究

ID:21206845

大小:1.60 MB

页数:44页

时间:2018-10-20

基于遗传算法的主题爬虫搜索策略研究_第1页
基于遗传算法的主题爬虫搜索策略研究_第2页
基于遗传算法的主题爬虫搜索策略研究_第3页
基于遗传算法的主题爬虫搜索策略研究_第4页
基于遗传算法的主题爬虫搜索策略研究_第5页
资源描述:

《基于遗传算法的主题爬虫搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖北工业大学硕士学位论文图1.12009中国搜索引擎市场份额近年来,随着万维网技术的广泛应用,Web信息资源呈指数级增长,通用搜索引擎已经无法获取网络上的所有资源,而且无法保证对互联网信息的及时更新,尤其是越来越不能满足人们日益增长的对个性化服务的需要。面对这些危机和挑战,为了满足特定人群需要的“主题搜索引擎”应运而生,它的出现引发了搜索引擎研究的又一个浪潮。而主题搜索引擎就是专门为用户提供与某个主题相关的网页资源,在服务上更具专业特色。而且在某个领域或者某个专题上比通用搜索引擎更加准确和有效。对于主题搜索引擎来说,主题爬虫的爬行技术则是其研究的核心,而爬虫使用哪

2、种爬行策略才能在万维网上获取大量的与主题相关的信息资源就成为了研究的重点。而对于爬虫来说,它不仅要尽可能多地收集与主题相关的页面,同时要最大限度地避免下载无关的页面,这样可以更好地节省硬件资源和网络资源的使用。目前,国内对于主题爬虫搜索策略的研究主要有三类:基于内容评价的搜索策略,主要有Best-First算法、Fish-Search算法、Shark-Search;基于链接结构评价的搜索策略,主要有PageRank算法和HITS算法;基于未来回报的搜索策略,主要有基于巩固学习的搜索策略。这三类搜索策略的侧重点虽然不同,但是对于搜索引擎技术的发展都起到了重要的作用,

3、而且目前主流的搜索引擎都是使用的这三类搜索策略,例如Google使用的是PageRank算法。为了促进爬虫搜索技术的发展,基于遗传算法的搜索策略也得到了越来越多4湖北工业大学硕士学位论文的研究者的关注,尤其是在主题搜索引擎中,遗传算法全局搜索的特性得到了发挥,而且已经有研究者做出了一定的研究成果。1.4搜索引擎未来的发展搜索引擎自诞生以来已经从第一代单纯的文字搜索发展到今天具有文字、图片、音频、视频等信息的搜索。而搜索引擎的最终任务是搜索一个问题,得到一个答案,而不是用户输入一些搜索词,得到一百万个甚至更多的结果。搜索引擎未来主要有移动化、个性化、智能化三大发展趋

4、势:移动搜索引擎。目前中国有3亿多网民,手机用户有7亿多,手机用户是网民总数的2倍有余,手机的普及率和使用率比个人PC要高很多,但是目前基于手机平台的搜索引擎却还不是很完善,所以在未来所有能上网的多媒体设备,包括汽车、电视机等都应该而且都会具有搜索功能,这将会大大增加用户对搜索这个概念的认知。个性化搜索引擎。个性化搜索引擎也叫做垂直搜索引擎,这种搜索引擎能够让用户依照自己的个性需求自由地调整搜索的结果,比如用户可以选择时间排序、重要性排序或者地域性排序等排序方式,从而可以快速地找到满意的搜索结果。智能化搜索引擎。目前的搜索引擎是将搜索出来的网页呈现给用户,而没有真

5、正意义的帮助用户解决问题,用户仍然需要自己寻找答案。但是智能化搜索引擎的目标就是:如果用户搜索“送某某一个什么样的贺卡”,它就能自动地买这个样子的贺卡然后送给某某。1.5本文研究内容和创新点对于主题搜索引擎来说,主题爬虫的搜索策略是核心。目前,主题爬虫搜索策略有很多,比如Google的PageRank算法和李彦宏的超链分析。而基于遗传算法的全局寻优特点,也已经有研究者提出将遗传算法应用在爬虫搜索策略中而且进行了实施。本文主要研究以下三个问题:1.遗传算法是模拟生物进化的智能优化算法,具有高效的全局搜索的特点。它的特性决定了其在网络爬虫搜索策略中应用的可能性[4]。

6、本文提出了将遗传算法应用到爬虫搜索策略中,这样可以更好地发挥遗传算法的优势,而且可以更好地解决爬虫全局寻优问题。2.遗传算法是根据生物进化论优胜劣汰、自然选择、适者生存和物种遗传的5湖北工业大学硕士学位论文原则,借助选择、交叉、变异等操作,使所要解决的问题在竞争中得以进化,从而求得问题的最优解。本文结合主题搜索的需要在构造初始群、交叉、变异和选择阶段进行了改进,从而提高搜索效率和准确度。3.为了验证改进后的遗传算法的搜索效率,本文分别用Best-First、HITS和遗传算法三种算法对给定主题进行搜索,经过对实验数据的分析发现改进后的遗传算法对提高爬虫的搜索效率较

7、有成效。本文的创新点归纳如下:1.本文的基于遗传算法的搜索策略,在构建初始群时,加入了Aleax排名,综合了网页的权威值、目录值和访问量进行排名,在选取初始种子时更加准确,选取的URL与主题的相关度更高,对于后面寻找相关种子更有帮助。2.本文在遗传算法的交叉阶段,利用超链的描述信息来预测页面与主题的相似度,这样可以根据相似度的大小有选择地扩展种子集合。3.本文在遗传算法的变异阶段,有选择地引入了目录型网页,即引入Hub值高的种子,这样可以扩展爬虫的搜索范围,从而达到全局寻优。1.6本文结构安排本文的组织结构如下:第一章介绍了搜索引擎的发展概况、分类以及本课题的研究

8、背景和目的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。