基于网页内容和链接的主题爬虫研究与实现

基于网页内容和链接的主题爬虫研究与实现

ID:36795520

大小:2.51 MB

页数:69页

时间:2019-05-15

基于网页内容和链接的主题爬虫研究与实现_第1页
基于网页内容和链接的主题爬虫研究与实现_第2页
基于网页内容和链接的主题爬虫研究与实现_第3页
基于网页内容和链接的主题爬虫研究与实现_第4页
基于网页内容和链接的主题爬虫研究与实现_第5页
资源描述:

《基于网页内容和链接的主题爬虫研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ResearchonTopicalCrawlerCombiningHyperlinkAThesiSSubmittedtoHainanUniversityinFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringinComputerApplicationTechnologyByLinb0LnoPostgraduateProgramCollegeofInformationScience&TechnologyHainanUniversitySupervisor:QiChenAcademicTitle:Assoc

2、iateprofessorSignatureApprovedApril,2010●删删fffff『Ifff川Ⅲ川ffIfIfffff洲Y1798801海南大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其它个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名:‰l葭EIM:为卜年f月学位论文版权使用授权说明本人完全了解海南大学关于收集、保存、使用学位论文的规定

3、,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权海南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本人在导师指导下完成的论文成果,知识产权归属海南大学。保密论文在解密后遵守此规定。论文作者繇黔7氐翩签名:伽角日期:7叼。年易月中日日期:≯o/o年易角≯.日本人已经认真阅读“CALLS高校学位论文全文数据库发布章程”,同意将本人的学位论文提交“CALLS高校学位论文全文数据库”中全文发布,并可按“章程”中规定享受相关权益。旦塞途塞埕銮丘澄唇;旦坐生;旦=生i

4、旦三生蕉盈。论文作者签名:%废日期:7p/.年‘月牛日翮虢伽导师签名:fy,J日期:7啦年6月讧日'一0,Il【I_..1海南大学硕士学位论文摘要摘要随着互联网上的信息量越来越大,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等已日趋明显。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。主题爬虫是垂直搜索引擎的核心部分。主题爬虫对网络带宽的利用率、硬件资源的使用以及搜索效率都有重要的影响,因此对主题爬虫的研究具有重要的意义。本文首先介绍爬虫的基本原理,接着讨论主题爬虫的关键技术如中文分词,主题判断的方法

5、以及主题向量的建立等,重点介绍了主题爬虫的爬行策略。本文详细介绍了每类爬行策略的代表算法,并对这些算法的优缺点进行了分析,并在此基础上提出了算法改进方法。本文对传统向量空间模型特征词的权值计算方法进行改进:对文本中不同位置的特征词赋予不同的权重;对Hits算法中不合理的链接互相加强关系进行了改进:在扩展根集时,如果一个网站B上有n个其它网页指向另外一个网站上的某个网页A时,则将这些链接的权重设为1/n,其它链接的权重依然设为l;针对Shark-Search算法产生“近视’’和Hits算法产生“主题漂移’’的不足,将这两种算法的优点结合起来形成两种新的主题爬虫算法:S-Hi

6、ts算法和MT-Hits算法,并实现了这两种爬虫算法。实验表明新的算法效果较好。关键词:垂直搜素引擎主题爬虫爬行策略●●●IJ●l●●上J海南大学硕十学位论文摘要AbstractWiththeincreasingamountofinformationontheInternet,thelimitationsoftraditionalsearchengines,such觞lowcoverage,poortimeliness,inaccurateresults,havebecomeincreasinglyobvious.Fortheabove,anothersearchengi

7、necalledverticalsearchenginehasappearedwhichcallbeobtainedthemoresatisfactoryresultsthanthetraditionalonewithinacertainrange.TopicalCrawleristheCOrepartofVerticalSearchEngine.TheresearchonTopicalCrawlerhasimportantsignificanceonincreasingnetworkbandwidthutilizationa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。