垂直搜索引擎中主题网络爬虫算法的设计与研究

垂直搜索引擎中主题网络爬虫算法的设计与研究

ID:35177233

大小:7.09 MB

页数:74页

时间:2019-03-20

垂直搜索引擎中主题网络爬虫算法的设计与研究_第1页
垂直搜索引擎中主题网络爬虫算法的设计与研究_第2页
垂直搜索引擎中主题网络爬虫算法的设计与研究_第3页
垂直搜索引擎中主题网络爬虫算法的设计与研究_第4页
垂直搜索引擎中主题网络爬虫算法的设计与研究_第5页
资源描述:

《垂直搜索引擎中主题网络爬虫算法的设计与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广东工业大学硕±学位论文(工程硕±)■'V-■.讀'记'的.....一‘、--,Vg,V.垂直搜索引擎中主题网络爬虫算法的设计与研究'■…一■、;.罗路天■押一-括如约,.■.?六--r户?../>,i/.,^。■'一一.-:V诲:、.龄、?>...,.声巧,\Y:為v:二V.術;v,.灣'凑"'人A猎謂‘爲解:媒令一‘诚、方'■.,、一换H诗户聲-:尹.苦‘..々■/.心一-:-‘,、-.如'.if’,.,\;

2、\:J^'…V_..,一V.f.x.‘、■.?\>)??■‘.<、.'-一、.■‘沪"一-昨、1?<,-'.-、V占声、.。一Ij、/!夕.…二〇—六年五月-社j-??'?i—片兴、—二—、、'?'.…—拉二。>姑,'—一.?-:V:./儀,'一‘‘。^.'、:^--.'V:.;:飞V一'r—节'—、..V仪。V:r一,棘>U分类号;TN4学校代号:1184511UDC学号:21305064;密级;

3、广东工业大学硕击学位论文?(工程硕±)垂直搜索引擎中主题网络爬虫算法的设计与研究罗路天校内导师姓名:谢国波教授、职称校外导师姓名、职称:陈薪高级工程师学科专业或领域名称:计算机巧术()学生所属学院:计算机挙院论文答辩日期二〇—六年五月:ADissertationSubmittedtoGuangdongUniversityofTechnolofortheDereeofMastergyg(MasterofEngineering)TheDesinandResear

4、chofToicWebCrawgplerinVerticalSearchEninegCandidate:LuoLutianSupervisor:Prof.XieGuoboMay20化SchoolofComputerScienceandTechnologyGuangdongUniversitofechnoloyTgyGuangzhou,Guangdong,P.R.China,510006摘要摘要随着互联网的快速发展,近几年,传统的通用搜索引擎已不能满足人们对于专业化

5、、个性化的信息需求,因此建立面向特定领域的垂直搜索引擎迫在眉睫。主题网络爬虫在主题捜索引擎中起着举足轻重的作用,它设汁的好坏直接影响着搜索引擎的服务质量。传统的主题网络爬虫主要通过分析网页的全部内容来分析候选URL,与主题的相关性但现今的网页包含的主题越来越多,这种分析方式可能会由于网页中存在噪音而影响候选URL与主题相关性的判定。近年来对主题爬虫的研究主要集中于两个方面:主题相关性判定和主题爬虫搜索策略。本文针对传统的主题网络一爬虫的不足提出基于种混合爬行的搜索策略。主要的研巧工作包括:(1)文章在研究主题爬虫相关技术的基础上,对

6、现有的研巧成果分别做了阐述,这为文章提出的新的爬虫策略奠定了理论基础。2B一()把树的层次型结构应用到loom巧Iter去重过程,提出种基于传统助oomF化er的多层BloomFilter(MLB巧对抓取的URL去重,每层BloomFilter由A个独立的哈希函数和m位位数组組成,将URL看成是由分割之后组成的集合,从而将URL的去重问题转换成判定树的路径问题。实验结果分析表明:改进后的多层BloomFiter。l具有更小的误判率,提升了爬行效率(3)文章吸取了己有成果的研究精华,充分结合网页内容评价和网页链接评价两个维度提

7、出基于内容和链接评价的一种混合爬行策略。在内容评价策略上,构建W网页内容和错文本为输入的朴素贝叶斯分类器分析候选URL与主题的相关性,在链接评价策略上,采用高效的曲TS算法来获得Au也ority和Hub网页。将整个爬行策略的周期合理分为两步,提高了网页与主题的相关性。(4)在预测候选URL与主题相关度方面,采用典型的杜威十进制分类法和链接结构分析法等差异化的方法预测URL与主题的相关性,综合考虑了错文本、错文""本附近的信息、反向网页、反向链接与主题的相关,避免了主题漂移现象。(5)对爬虫效果采用差准率和模拟査全率来进行评估,通过

8、比较本文提出的爬行策略和其他算法在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。