面向主题的舆情采集搜索爬虫的设计与实现

面向主题的舆情采集搜索爬虫的设计与实现

ID:36802097

大小:4.43 MB

页数:83页

时间:2019-05-15

面向主题的舆情采集搜索爬虫的设计与实现_第1页
面向主题的舆情采集搜索爬虫的设计与实现_第2页
面向主题的舆情采集搜索爬虫的设计与实现_第3页
面向主题的舆情采集搜索爬虫的设计与实现_第4页
面向主题的舆情采集搜索爬虫的设计与实现_第5页
资源描述:

《面向主题的舆情采集搜索爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕士学位论文面向主题的舆情采集搜索爬虫的设计与实现姓名:李玉华申请学位级别:硕士专业:计算机技术指导教师:王海洋;朱友芹20090405山东大学硕士学位论文摘要针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,以舆情信息为核心研究和设计了主题搜索爬虫,为进行主题搜索引擎的研究奠定了良好的基础。本文首先介绍了面向主题搜索引擎的背景,然后对主题舆情搜索引擎的需求进行了分析,在这基础上对系统进行了概要设计和详细设计,最后就系统实现和测试进行了一些探讨。作为一个面向主题的舆情

2、采集搜索爬虫,系统实现了一个基于Boltzmann行动选择策略的具有在线增量自学习能力的面向主题搜索爬虫的原型,通过控制网络蜘蛛的贪婪程度,基于Boltzmann行动选择策略进行爬行。本文引入网页信噪比的概念,并通过它衡量网页里关键词的信息是否超过一定的阈值,从而判断网页是否属于所要搜索的主题网页,来调整网页搜索的优先级。在此基础上,面向主题搜索爬虫引入在爬行过程中自动更新学习模型,当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值。通过这样,避免了网络蜘蛛过早陷入W曲搜索空间中局部最优子

3、空间的陷阱,同时能准确识别页面的主题相关性,具有很好的自学习能力。同时可以根据链接优先权队列中链接的价值大小比较网页搜索的优先级。基于以上研究,本文设计并部分实现了面向主题搜索爬虫,并通过实验与其它搜索策略进行比较,证实本文提出的算法在查全率与查准率两方面都有一定的优越性,在寻找最优行动选择序列方面具有优势。但是,如何完善目前网页的权值判断机制,使网络链接价值的计算更精确,使搜索爬虫更加智能化,需要以后进一步研究。关键词:面向主题:舆情采集;搜索爬虫:BoItzmann;增量自学习山东大学硕士学位论文ABSTRAC

4、TInthemodeminformationage,theamountofinformationgrowsexplosivelyeveryday.IthasbecomeahottopiconhowtOacquirehigh-qualityinformation.AIntemetsearchengineiscommonplacenow,buttherearerelativelyfewtopic—orientedsearchenginesinapplication.Totackletheissue、jvi也having

5、toomanysearchresultsandtherelevanceisgenerallytoolowintheresultsusingthecommonsearchengines,thisarticleraisedtheconceptofatopic—orientedsearchengine,anddiscusseddinvolvesthedesignandimplementationofatopic-orientedcrawlingmechanism,whichfocusedonrelevancetothet

6、opictobesearched、Ⅳit}1.Thishaslaidasolidfoundationforfurtherresearchesontopic—orientedsearchengines.Thisarticlediscussedthedesignandimplementationofatopic-orientedcrawlercapableofonlineincrementalself-learning,basedontheBoltzmannaction-selectionstrategy.Throug

7、hcontrollingthegreedyscaleofthespider,basedontheBoltzmannaction—selectstrateg.Theconceptofthewebpagesignal-noiseratiowasintroduced,throughwhichtheinformationrelatedtothekeywordssearchedCanbeevaluatedagainstacertainthreshold,thusdecidingwhetherornotthesaidwebpa

8、geisinthesearchcategory.FurthermorethepriorityofthesearchresultsCallbeadjusted,Basedonthisconcept,themodelofaself-learningduringcrawlingwasintroducedintothetopicorientedcrawler,and

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。