欢迎来到天天文库
浏览记录
ID:35177233
大小:7.09 MB
页数:74页
时间:2019-03-20
《垂直搜索引擎中主题网络爬虫算法的设计与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、广东工业大学硕±学位论文(工程硕±)■'V-■.讀'记'的.....一‘、--,Vg,V.垂直搜索引擎中主题网络爬虫算法的设计与研究'■…一■、;.罗路天■押一-括如约,.■.?六--r户?../>,i/.,^。■'一一.-:V诲:、.龄、?>...,.声巧,\Y:為v:二V.術;v,.灣'凑"'人A猎謂‘爲解:媒令一‘诚、方'■.,、一换H诗户聲-:尹.苦‘..々■/.心一-:-‘,、-.如'.if’,.,\;
2、\:J^'…V_..,一V.f.x.‘、■.?\>)??■‘.<、.'-一、.■‘沪"一-昨、1?<,-'.-、V占声、.。一Ij、/!夕.…二〇—六年五月-社j-??'?i—片兴、—二—、、'?'.…—拉二。>姑,'—一.?-:V:./儀,'一‘‘。^.'、:^--.'V:.;:飞V一'r—节'—、..V仪。V:r一,棘>U分类号;TN4学校代号:1184511UDC学号:21305064;密级;
3、广东工业大学硕击学位论文?(工程硕±)垂直搜索引擎中主题网络爬虫算法的设计与研究罗路天校内导师姓名:谢国波教授、职称校外导师姓名、职称:陈薪高级工程师学科专业或领域名称:计算机巧术()学生所属学院:计算机挙院论文答辩日期二〇—六年五月:ADissertationSubmittedtoGuangdongUniversityofTechnolofortheDereeofMastergyg(MasterofEngineering)TheDesinandResear
4、chofToicWebCrawgplerinVerticalSearchEninegCandidate:LuoLutianSupervisor:Prof.XieGuoboMay20化SchoolofComputerScienceandTechnologyGuangdongUniversitofechnoloyTgyGuangzhou,Guangdong,P.R.China,510006摘要摘要随着互联网的快速发展,近几年,传统的通用搜索引擎已不能满足人们对于专业化
5、、个性化的信息需求,因此建立面向特定领域的垂直搜索引擎迫在眉睫。主题网络爬虫在主题捜索引擎中起着举足轻重的作用,它设汁的好坏直接影响着搜索引擎的服务质量。传统的主题网络爬虫主要通过分析网页的全部内容来分析候选URL,与主题的相关性但现今的网页包含的主题越来越多,这种分析方式可能会由于网页中存在噪音而影响候选URL与主题相关性的判定。近年来对主题爬虫的研究主要集中于两个方面:主题相关性判定和主题爬虫搜索策略。本文针对传统的主题网络一爬虫的不足提出基于种混合爬行的搜索策略。主要的研巧工作包括:(1)文章在研究主题爬虫相关技术的基础上,对
6、现有的研巧成果分别做了阐述,这为文章提出的新的爬虫策略奠定了理论基础。2B一()把树的层次型结构应用到loom巧Iter去重过程,提出种基于传统助oomF化er的多层BloomFilter(MLB巧对抓取的URL去重,每层BloomFilter由A个独立的哈希函数和m位位数组組成,将URL看成是由分割之后组成的集合,从而将URL的去重问题转换成判定树的路径问题。实验结果分析表明:改进后的多层BloomFiter。l具有更小的误判率,提升了爬行效率(3)文章吸取了己有成果的研究精华,充分结合网页内容评价和网页链接评价两个维度提
7、出基于内容和链接评价的一种混合爬行策略。在内容评价策略上,构建W网页内容和错文本为输入的朴素贝叶斯分类器分析候选URL与主题的相关性,在链接评价策略上,采用高效的曲TS算法来获得Au也ority和Hub网页。将整个爬行策略的周期合理分为两步,提高了网页与主题的相关性。(4)在预测候选URL与主题相关度方面,采用典型的杜威十进制分类法和链接结构分析法等差异化的方法预测URL与主题的相关性,综合考虑了错文本、错文""本附近的信息、反向网页、反向链接与主题的相关,避免了主题漂移现象。(5)对爬虫效果采用差准率和模拟査全率来进行评估,通过
8、比较本文提出的爬行策略和其他算法在
此文档下载收益归作者所有