基于聚焦相关度排序的搜索引擎研究与应用

基于聚焦相关度排序的搜索引擎研究与应用

ID:36621304

大小:2.47 MB

页数:80页

时间:2019-05-13

基于聚焦相关度排序的搜索引擎研究与应用_第1页
基于聚焦相关度排序的搜索引擎研究与应用_第2页
基于聚焦相关度排序的搜索引擎研究与应用_第3页
基于聚焦相关度排序的搜索引擎研究与应用_第4页
基于聚焦相关度排序的搜索引擎研究与应用_第5页
资源描述:

《基于聚焦相关度排序的搜索引擎研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、▲气1963590学校代码:10255学号:2070689基于聚焦相关度排序的搜索引擎研究与应用RESEARCHANDDEVELoPMENTOFSEARCHENGINEBASEDONFoCUSRELEVANCERANKING学科专业:计算机体系结构作者:温泉指导教师:丁祥武答辩日期:2010年01月东华大学计算机科学与技术学院CollegeofComputerScienceandTechnologyDonghuaUniversity,’,‘,\o-————堑整坐业塑燮堂塑山JYlU/lllllllll/8llJ/116JllIll3llllJ/17lllll6

2、llllll9JJlll/大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:I昼嗖日期:2vl0年/月/g日基于聚焦相关度排序的搜索引擎研究与应用大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版

3、,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在——年解密后适用本版权书。本学位论文属于不保密杉学位论文作者签名:2星鼠日期:2跣刀年‘月i妇指导教师签名:日期:锣7缉I基于聚焦相关度排序的搜索引擎研究与应用摘要搜索引擎是人们从海量网络数据中获取有用信息的重要工具,是网络信息研究和应用的关键内容。目前随着网络信息的爆炸式增长以及信息多元化的发展,快速有效地获取所需的信息变得越来越困难,通用搜索引擎已不能适应用户对信息检索的准确性要求,专业化的、面向

4、主题的垂直搜索引擎正成为研究的热点。相关度排序技术是搜索引擎中的关键技术之一,它对于获取主题相关的数据和提供相关的查询结果集起着至关重要的作用。论文研究了垂直搜索引擎中相关度技术,并分析了其中的不足之处,然后对主题爬行、基于链接结构排序、基于页面权重排序等方面提出了改进模型和算法,以提高相关度排序的质量,从而改善垂直搜索引擎的性能。最终设计并实现了面向领域的垂直搜索引擎系统。论文的主要贡献包括:(1)针对主题爬虫无法穿越“黑暗ttmnel"问题,使用在线学习的方法并利用辅助函数,对主题爬虫的主题爬行策略进行改进,使其能抓取到相关度更高的主题数据。(2)研究了P

5、ageRank算法及其改进算法,通过对用户点击网页行为进行建模,改进链接之间PageRank值的传递方式,从而提出改进算法。实验证明,该算法能在不增加额外存储空间的情况下,有效地避免主题漂移现象的发生。坤●0,i“.基于聚焦相关度排序的搜索引擎研究与应用(3)针对网页权重特征提取模型维度过高的缺陷,提出网页权重的自定义方法,定义出网页权重的因素,并利用可分性判据来衡量页面权重因素的权重,从而给出页面权重的评价函数,有效地降低网页特征空间维度。(4)融合以上三方面改进方案,提出聚焦相关度排序方案,并将其运用到搜索引擎的实现中。(5)利用Lucene全文搜索引擎框

6、架,实现了汽车主题资源的垂直搜索引擎系统。经实际应用表明,聚焦相关度排序使本垂直搜索引擎的相关性、查全率、查准率都有了不同程度的提高。关键词:垂直搜索引擎,PageRank,聚焦相关度,主题爬虫,用户行为模型IV,ResearchandDevelopmentofSearchEngineBasedonFocusRelevanceRankingAbstractSearchengineisthemostimportanttoolforpeopletogetusefuliI讧.0nnationfromthemagnanimitywebdata,alsoitisthek

7、eycontentofresearchinganddevelopingwebinformation.Butcurrently,withthewebinfonnation.sblastincreasingandmultivariantinformation’Sdeveloping,itcomestobemoreandmoredifficulttoretrievedesirableinf;ormationspeedinessandeffectively.TraditionalsearchengineCan’tmeetsusers’highprecisionrequ

8、irementofsearchingi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。