基于锚与链接文本扩展的kbes算法隧道策略

基于锚与链接文本扩展的kbes算法隧道策略

ID:8106154

大小:414.35 KB

页数:6页

时间:2018-03-06

基于锚与链接文本扩展的kbes算法隧道策略_第1页
基于锚与链接文本扩展的kbes算法隧道策略_第2页
基于锚与链接文本扩展的kbes算法隧道策略_第3页
基于锚与链接文本扩展的kbes算法隧道策略_第4页
基于锚与链接文本扩展的kbes算法隧道策略_第5页
资源描述:

《基于锚与链接文本扩展的kbes算法隧道策略》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、总第203期2011年第3期基于锚与链接文本扩展的KBES算法隧道策略乔建忠(中国科学院国家科学图书馆北京100190)(解放军艺术学院教育技术中心北京100081)(中国科学院研究生院北京100049)【摘要】在总结主题爬行器的“真、假隧道”策略的基础上,提出一种解决“假隧道”问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。【关键词】主题搜索隧道技术搜索算法主题爬行器【分类号】G250.73AnchorandLinkTextExpansionBasedKBESAlgorithm

2、TunnelingStrategyQiaoJianzhong(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)(EducationalTechnologyCenterofPLAAcademyofArts,Beijing100081,China)(GraduateUniversityofChineseAcademyofSciences,Beijing100049,China)【Abstract】Onthebasisofsummaryof“trueorfal

3、setunnel”strategyonfocusedcrawler,thispaperproposesanewKBESalgorithmtosolutethe“falsetunnel”problem.TheexperimentsprovethatKBESalgorithmcanimprovetheeffi—ciencytopredicttherelevanceofnewlinksbyanchorandlinktextintheheuristicstrategiestosomeextent.【Keywords】FocusedcrawlingT

4、unnelingSearchalgorithmFocusedcrawler1引言隧道被认为是Internet中两个相关主题群落问的未知区域,如图1所示。如何穿过隧道进人高相关度主题区域是主题搜索技术需要解决的一个重要问题。传统的“最好优先算法+分类器”式的主题爬行器存在隧道瓶颈问题,如:Chakrabarti等提出软焦距爬行,网页按概率进行主题分类,但面对隧道效应,无法从无关网页再到相关网页爬行。搜索算法中遇到的较大问题就是相关主题群落之间的这条未知的隧道瓶颈。它的产生原因可能来自以下几个方面:(1)客观存在着一条不相关的隧道本文将这类隧道

5、称为“真隧道”。例如对两个具有竞争关系的商业网站互相之间不直接相连,可借助提供多个种子地址的手段来实现穿越隧道的目的。(2)搜索算法中的特征因子不能真实、全面地反映当前链接与主题的相关性本文将这类隧道称为“假隧道”。例如,如果采用锚文本或链接文本预测链接的相关性,那么通常会因为锚文收稿日期:2011—02—15收修改稿日期:2011—03—11XIANDAITUSHUQINGBA0JISHU圈引擎和Backlinks建立语境图。McCallum等和Ren—nie等在其“Cora’SFocusedCrawler”中通过强化学习算法决定爬行策略

6、,从一个特定链接开始在锚附近文本中寻找未来回报并通过分类器学习通往目标的链接路径,但对预期建模的能力限制在4层链接距离以内。为扩大预测的链接距离,傅向华等J、黄莉等和ll_表示无关网页毒表示相关网负谭骏珊等均基于改进的强化学习爬行算法,将回报图1主题群落间隧道示意图沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善网页分类本或链接文本中传递的信息量较少,不足以命中查询评估器和Q值预测器。关键词而造成相关性判断上的一定程度的迷失。此时(2)变换主题法的基本原理是借助其他相关主题就需要采取相应的措施来合理丰富

7、特征因子的信息达到扩大搜索范围穿过隧道的目的。主要利用概念上量,从而实现穿过隧道的目的。的相关性解决字面上的相似性匹配带来的问题。常用实施隧道策略首先需要区分隧道的不同种类,再的方法是构建领域本体,利用本体对用户的查询关键按不同情况的最佳方案处理。针对不同隧道采用何种词按实体问关系进行扩展。例如Ehrig、Ester等隧道技术是问题的关键。目前已有较多文献涉足该和杨贞研究通过上位类或语义关系找到目标网页。领域。该方法有利于迅速提高查全率,但具有本体建设成本2相关研究较高、领域局限性和权重设定的主观性等不足。Mou—ton等”则认为避免歧义最

8、好从多个角度表示主题,针对“真隧道”策略的研究,Ester等j指出具有竞于是提出主题表示的4种方法,即ODP、Wikipedia、争关系的网站之间联系不紧密,借助Hubs(中心页

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。