欢迎来到天天文库
浏览记录
ID:53909069
大小:897.42 KB
页数:5页
时间:2020-04-27
《主题爬虫的设计与实现-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第24卷第8期计算机技术与发展Vo1.24No.82014年8月COMPUTERTECHNOLOGYANDDEVELOPMENTAug.2014主题爬虫的设计与实现林子皓(南京邮电大学计算机学院,江苏南京210003)摘要:在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果
2、较好地反映了主题爬虫的实用性。关键词:主题爬虫;HITS算法;主题相关度中图分类号:TP31文献标识码:A文章编号:1673—629X(2014)08—0099—04doi:10.3969/j.issn.1673-629X.2014.08.023DesignandImplementationofTopic-focusedCrawlerLINZi-hao(CollegeofComputer,NanjingUniversityofPosts&Telecommunications,Nanjing210003,China)Abstract:Intheeraofinformationexplo
3、sion,thegeneralcrawlercannotmeettherequirementsofpersonalizedsearchinspecificareas,butthetopiccrawlerwhichcanobtainmoreaccurateandcomprehensiveinform~iongetsmoreattention.Amongthem,thetopiccrawlerastheCOrepartoftheverticalsearchenginehasbeentheresearchfocusinthesearchdirection.Onthebasisofanaly
4、zingthestructureandcharacteristicsofthetopiccrawler,designatopiccrawlerbyintroducingitsownmeasurementoftopicsimilarityandpagerankingalgo-rithmofHITS.Offerspecificstepsofimplementingthecrawler.AnexperimentwiththethemeofcloudcomputinghasbeencarriedOUt,whichprovesthepracticalapplicabilityoftopiccr
5、awler.Keywords:topiccrawler;HITSalgorithm;topicsimilarityO引言集中。随着信息爆炸式的发展,用户对于信息搜索的需求越来越多。由于一般搜索引擎查询结果广而不精的1主题爬虫模块设计现状满足不了用户需求,查询更精确、分类更细致、数1.1整体结构据更全面的主题搜索引擎应运而生。主题爬虫是主题主题爬虫只爬取与主题相关的网页,并且根据分搜索引擎的关键和基础,它是根据某一特定的主题,在析、筛选的结果继续爬取合理网页。对比普通爬因特网上能自动抓取和主题相关网页的程序。虫J,需要在原来基础上进行扩充,特别是网页处理主题爬虫的主要目标是以特定的方式
6、,高效地抓部分。整体结构可以看作:初始模块进行初始爬行,主取Web中与主题相关的网页,尽可能过滤与主题无关题相关度分析模块进行相关度分析并行适当筛选页的链接,实现搜索的专、深、精。它与传统的通用爬虫面,排序模块对网页的重要性进行一个排序,形成一个相比,减少了对资源的利用并且支持扩张性的检索处优先级序列。每次都从优先级高的网页开始抓取,可理。对于主题爬虫而言,最重要的是如何过滤网页中以保持主题不偏移。的前向链接,使得爬虫聚焦在一个特定主题的Web子系统架构图如图1所示。收稿日期:2013-10—28修回日期:2014—01—26网络出版时间:2014—05—21基金项目:国家自然科学基
7、金资助项目(61170322)作者简介:林子皓(1988一),男,硕士研究生,研究方向为智能计算技术;导师:洪龙,教授,研究员级高级工程师,研究方向为分布式系统、非经典逻辑及应用。网络出版地址:http://www.cnki.net/kcms/detaiL/61.1450.TP.20140524.2151.061.html·100·计算机技术与发展第24卷文中将每个关键词看作是一个特征项,作为网页的一个基本单位。通过统计算法TermFrequency—In
此文档下载收益归作者所有