欢迎来到天天文库
浏览记录
ID:34823455
大小:1.86 MB
页数:55页
时间:2019-03-11
《鉴于主题搜索引擎中网络蜘蛛搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Y823138专:j、硕士学位论文⑧论文题目圭壁攮塞里i鍪生圈终塑蛙塑塞薤堕婴嚣所在学院盐簋扭型堂皇撞苤堂瞳浙江大学硕十学位论文摘璺摘要随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更细致精确、数据更全面深入、更新更及时的凶特网搜索服务。在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。而Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web信息提取,以保证信息的实时性和有效性。该
2、文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础卜,提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是刚络蜘蛛能够围绕设定丰题进行聚焦检索的关键。在URL的j二题相关性判别过程中,引入了链接文本及相关链接属性分析,提出了一种薪颖的URL主题相关性剪枝算法一EPR算法。而对于网页的主题相关性判别,则使用目前较为常用的向量空间模型进行判别。主题搜索引擎对数据实时性的要求要远远高于通用搜索引擎,因而,增量Web信息提取
3、算法也是主题网络蜘蛛搜索策略的重点。该文提出了一种全新的基于索引页的增量Web信息提取算法,能够有效地发现Web上新增加的网页。实验结果表明该文的工作是相当有效的,尤其是提出的EPR算法和基于索引页的增量Web信息提取算法,具有相当的创新性和实际应用价值。关键词:搜索引擎,网络蜘蛛,搜索策略,主题提取,索引页,增量提取浙江犬学硕}‘学位论文AbstractWithWebinformationcontinuingtoexplodeinalldirections,traditionalSearchEnginecan’tkeepupwiththemoteandm
4、orerigorousandprolificsearchrequirementsfromdifferentusers.Recently,topic—drivensearchengineispresentedtoprovideanewsearchservice,whichisbetterclassified,containingmoTeprofoundandfocuseddata,andbeingupdatedintime.Nowadays,thewebsearchstrategyofthewebspiderintopic—drivensearchengin
5、earchitectureisreallyhotinresearch.Thedynamic,complex,andsemi-structuredpropertiesofWebrequirethewebspidertogatherdataefficientlytokeeptheinformationupdatedandvalid.Basedonourin·depthresearchinthesearchstrategyintopic-drivensearche1]【gineandthetopicrelativityjud百ngalgorithms,thisa
6、rticlepresentsastructuredesignmodelofthetopic-orientedwebspiderandthenanalyzesitindetail.Asthekeycomponentofsearchstrategyintopic-orientedwebspider,thetopicrelativityjudgingalgorithmsensurethefocusedwebcrawlingprocessofthespider.IntheprocessofrelativityjudgingbetweenURLandtopic,an
7、ovelURLpruningalgorithm-EPRalgoritlmlispresentedbasedontheanalysisonanchortextandotherproperties.ThepopularvectorspacemodelisusedtoctassifyHTMLpagefromdifferenttopics.Topic—drivensearchengineissupposedtoprovidetheupdatedwebinformation,SOtheincrementalwebcrawlingisalsoveryimportant
8、inthesearchstrategyoftopic—orient
此文档下载收益归作者所有