欢迎来到天天文库
浏览记录
ID:36802097
大小:4.43 MB
页数:83页
时间:2019-05-15
《面向主题的舆情采集搜索爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山东大学硕士学位论文面向主题的舆情采集搜索爬虫的设计与实现姓名:李玉华申请学位级别:硕士专业:计算机技术指导教师:王海洋;朱友芹20090405山东大学硕士学位论文摘要针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,以舆情信息为核心研究和设计了主题搜索爬虫,为进行主题搜索引擎的研究奠定了良好的基础。本文首先介绍了面向主题搜索引擎的背景,然后对主题舆情搜索引擎的需求进行了分析,在这基础上对系统进行了概要设计和详细设计,最后就系统实现和测试进行了一些探讨。作为一个面向主题的舆情
2、采集搜索爬虫,系统实现了一个基于Boltzmann行动选择策略的具有在线增量自学习能力的面向主题搜索爬虫的原型,通过控制网络蜘蛛的贪婪程度,基于Boltzmann行动选择策略进行爬行。本文引入网页信噪比的概念,并通过它衡量网页里关键词的信息是否超过一定的阈值,从而判断网页是否属于所要搜索的主题网页,来调整网页搜索的优先级。在此基础上,面向主题搜索爬虫引入在爬行过程中自动更新学习模型,当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值。通过这样,避免了网络蜘蛛过早陷入W曲搜索空间中局部最优子
3、空间的陷阱,同时能准确识别页面的主题相关性,具有很好的自学习能力。同时可以根据链接优先权队列中链接的价值大小比较网页搜索的优先级。基于以上研究,本文设计并部分实现了面向主题搜索爬虫,并通过实验与其它搜索策略进行比较,证实本文提出的算法在查全率与查准率两方面都有一定的优越性,在寻找最优行动选择序列方面具有优势。但是,如何完善目前网页的权值判断机制,使网络链接价值的计算更精确,使搜索爬虫更加智能化,需要以后进一步研究。关键词:面向主题:舆情采集;搜索爬虫:BoItzmann;增量自学习山东大学硕士学位论文ABSTRAC
4、TInthemodeminformationage,theamountofinformationgrowsexplosivelyeveryday.IthasbecomeahottopiconhowtOacquirehigh-qualityinformation.AIntemetsearchengineiscommonplacenow,buttherearerelativelyfewtopic—orientedsearchenginesinapplication.Totackletheissue、jvi也having
5、toomanysearchresultsandtherelevanceisgenerallytoolowintheresultsusingthecommonsearchengines,thisarticleraisedtheconceptofatopic—orientedsearchengine,anddiscusseddinvolvesthedesignandimplementationofatopic-orientedcrawlingmechanism,whichfocusedonrelevancetothet
6、opictobesearched、Ⅳit}1.Thishaslaidasolidfoundationforfurtherresearchesontopic—orientedsearchengines.Thisarticlediscussedthedesignandimplementationofatopic-orientedcrawlercapableofonlineincrementalself-learning,basedontheBoltzmannaction-selectionstrategy.Throug
7、hcontrollingthegreedyscaleofthespider,basedontheBoltzmannaction—selectstrateg.Theconceptofthewebpagesignal-noiseratiowasintroduced,throughwhichtheinformationrelatedtothekeywordssearchedCanbeevaluatedagainstacertainthreshold,thusdecidingwhetherornotthesaidwebpa
8、geisinthesearchcategory.FurthermorethepriorityofthesearchresultsCallbeadjusted,Basedonthisconcept,themodelofaself-learningduringcrawlingwasintroducedintothetopicorientedcrawler,and
此文档下载收益归作者所有