鉴于主题搜索引擎中网络蜘蛛搜索策略研究

鉴于主题搜索引擎中网络蜘蛛搜索策略研究

ID:34823455

大小:1.86 MB

页数:55页

时间:2019-03-11

鉴于主题搜索引擎中网络蜘蛛搜索策略研究_第1页
鉴于主题搜索引擎中网络蜘蛛搜索策略研究_第2页
鉴于主题搜索引擎中网络蜘蛛搜索策略研究_第3页
鉴于主题搜索引擎中网络蜘蛛搜索策略研究_第4页
鉴于主题搜索引擎中网络蜘蛛搜索策略研究_第5页
资源描述:

《鉴于主题搜索引擎中网络蜘蛛搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Y823138专:j、硕士学位论文⑧论文题目圭壁攮塞里i鍪生圈终塑蛙塑塞薤堕婴嚣所在学院盐簋扭型堂皇撞苤堂瞳浙江大学硕十学位论文摘璺摘要随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更细致精确、数据更全面深入、更新更及时的凶特网搜索服务。在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。而Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web信息提取,以保证信息的实时性和有效性。该

2、文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础卜,提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是刚络蜘蛛能够围绕设定丰题进行聚焦检索的关键。在URL的j二题相关性判别过程中,引入了链接文本及相关链接属性分析,提出了一种薪颖的URL主题相关性剪枝算法一EPR算法。而对于网页的主题相关性判别,则使用目前较为常用的向量空间模型进行判别。主题搜索引擎对数据实时性的要求要远远高于通用搜索引擎,因而,增量Web信息提取

3、算法也是主题网络蜘蛛搜索策略的重点。该文提出了一种全新的基于索引页的增量Web信息提取算法,能够有效地发现Web上新增加的网页。实验结果表明该文的工作是相当有效的,尤其是提出的EPR算法和基于索引页的增量Web信息提取算法,具有相当的创新性和实际应用价值。关键词:搜索引擎,网络蜘蛛,搜索策略,主题提取,索引页,增量提取浙江犬学硕}‘学位论文AbstractWithWebinformationcontinuingtoexplodeinalldirections,traditionalSearchEnginecan’tkeepupwiththemoteandm

4、orerigorousandprolificsearchrequirementsfromdifferentusers.Recently,topic—drivensearchengineispresentedtoprovideanewsearchservice,whichisbetterclassified,containingmoTeprofoundandfocuseddata,andbeingupdatedintime.Nowadays,thewebsearchstrategyofthewebspiderintopic—drivensearchengin

5、earchitectureisreallyhotinresearch.Thedynamic,complex,andsemi-structuredpropertiesofWebrequirethewebspidertogatherdataefficientlytokeeptheinformationupdatedandvalid.Basedonourin·depthresearchinthesearchstrategyintopic-drivensearche1]【gineandthetopicrelativityjud百ngalgorithms,thisa

6、rticlepresentsastructuredesignmodelofthetopic-orientedwebspiderandthenanalyzesitindetail.Asthekeycomponentofsearchstrategyintopic-orientedwebspider,thetopicrelativityjudgingalgorithmsensurethefocusedwebcrawlingprocessofthespider.IntheprocessofrelativityjudgingbetweenURLandtopic,an

7、ovelURLpruningalgorithm-EPRalgoritlmlispresentedbasedontheanalysisonanchortextandotherproperties.ThepopularvectorspacemodelisusedtoctassifyHTMLpagefromdifferenttopics.Topic—drivensearchengineissupposedtoprovidetheupdatedwebinformation,SOtheincrementalwebcrawlingisalsoveryimportant

8、inthesearchstrategyoftopic—orient

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。