欢迎来到天天文库
浏览记录
ID:34823518
大小:3.08 MB
页数:73页
时间:2019-03-11
《浅谈基于主题策略的网络爬行器算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于主题策略的网络爬行器算法研究重庆大学硕士学位论文学生姓名:蔡阳波指导教师:王康教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二OO八年五月ResearchonWebCrawlerAlgorithmBasedonTopicStrategyAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheDegreeofMasterofEngineeringbyCaiYangboSupervisor:Pro
2、f.WangKangMajor:ComputerSystemArchitectureCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaMay2008重庆大学硕士学位论文中文摘要摘要随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成为关键。为解决搜索引擎遇到的诸多难题,已经产生了目录搜索引擎、通用搜索引擎、元搜索引擎、主题搜索引
3、擎、人工智能搜索引擎等研究领域。本论文介绍了搜索引擎的组成及网络爬行器的主要原理,结合网页评价方法分析了基于主题策略的网络爬行器技术和网页隧道穿越技术,对比阐述分析了现有的网络爬行器的关键算法,如Pagerank算法、HITS算法、FishSearch算法、SharkSearch算法、BestFirst算法、A*算法等。在现有的算法基础上,提出新的一种评价网页重要性的方法,将网页链接分析和内容相关度结合起来,构造网页核心度公式和网页辐射空间,并尝试将网页辐射空间与隧道穿越技术结合起来,并进行了数学推理证明,
4、给出了几个关于搜索的定理证明,提出了一种基于主题策略的启发式搜索蛙跳算法。最后,利用一种通用的主题爬行器搜索策略性能评价系统进行了实验论证,对比分析了现有算法与启发式搜索蛙跳算法性能。本论文创新之处首先在于提出了新的网页辐射空间的概念,将传统的网页重要度计算方法PAGERANK与HITS进行结合,文本内容的相似度计算方法仍然作为分析评估网页内容的重要手段。网页核心度具有更加广泛的意义,相比单一的网页链接数计算或网页内容相似度计算,虽然计算量增加了,但是搜索范围却大大缩小了,搜索精度也相应提高,满足了主题搜索
5、的性能要求。第二个创新工作是对网页隧道穿越算法的研究。因为局部信息可能被淹没在全局信息之中,传统主题爬行算法没有区分全局相关性与局部相关性,将一个训练好的分类器作用到比其更宽泛的主题网页上,通常会得到不相关的判断结果。本论文将网页隧道穿越分为两种类型:主题相关隧道穿越(connectedtunneling)和主题非相关隧道穿越(non-connectedtunneling),并提出了相应的算法。第三个创新之处是将启发式搜索A*算法应用到主题爬行中,结合网页辐射空间方法和网页隧道穿越技术进行了启发式函数的改进
6、,提出了新的启发式搜索蛙跳算法。数学推理及实验结果表明,本论文提出的启发式搜索蛙跳算法在减少查找响应时间的同时,提高了查全率和查准率,使主题搜索引擎的性能有较大改善。关键词:主题策略,搜索引擎,网络爬行器算法,启发式搜索,蛙跳算法I重庆大学硕士学位论文英文摘要ABSTRACTAsInternetexpandsrapidly,moreandmoreinformationretrieveisdoneviasearchengine.Informationretrievefromjilliondataisbecom
7、ingmuchmoredifficult.Thecoreofsearchengineiswebcrawlertactics,whichhasbeenakeywhenitisresearchedandimproved.Toresolvemanyproblemsfacedbysearchengine,severalstudyareashaveemerged,suchasdirectorysearchengine,generalsearchengine,metasearchengine,topicsearchen
8、gine,AIsearchengine.Firstly,inthisthesis,componentofthesearchengineandmainprincipleofwebcrawlerareintroduced,webcrawlingtechnologybasedontopic-specificstrategyandwebpagestunnelingtechniqueinaccordancewithasse
此文档下载收益归作者所有