欢迎来到天天文库
浏览记录
ID:36776164
大小:2.32 MB
页数:57页
时间:2019-05-15
《相关性排序技术的几点研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京邮电大学硕士学位论文相关性排序技术的几点研究姓名:周卉申请学位级别:硕士专业:模式识别与智能系统指导教师:郭军20090212相关性排序技术的几点研究摘要本文针对搜索引擎相关性排序中的三方面技术进行了系统的研究:链接分析,段落检索和相关反馈,它们分别从不同的角度来改进相关性排序结果。主要创新工作和成果如下:第一,提出PageRank链接分析算法的存储优化方法。基于链接分析的PageRank算法需要计算网络所有结点的网页重要性分数,即PageRank值,因而网页结点的合理存储是该算法顺利运行的关键,本文通过数学推导以及利用稀疏矩阵的特点将算法空间复杂度由O(n^2)降至o(n
2、),同时大大提高了算法迭代效率。第二,提出段落检索与全文检索相结合的排序方法。以段落为粒度索引的排序方法能够有效的提高检索的准确率,但会使得召回率有所下降,为了减轻召回率的损失,提出将段落权重和全文权重相结合的排序方法,结果使得准确率得以提高,同时确保了召回率。第三,实验分析Rocchio相关反馈算法在应用中的优劣势。Rocchio是经典的基于向量空间模型的相关反馈算法,本文通过实验分析了其在改进排序结果上的有效性以及算法的优劣势。关键词:相关性排序PageRank段落检索RocchioRESEARCHONRELEVANCERANKINGABSTRACTForrelevance
3、rankinginsearchenginetechnology,thispapermainlyresearchesonthreetechnologies:linkanalysis,paragraphretrieval,relevancefeedback.Theyallcanimproveretrievalwithdifferentmethod.Themaininnovationcontributionsofthispaperarelistedbelow:First,thispaperproposesastoringmethodofPageRankalgorithmbasedon
4、linkanalysis.Asallknown,PageRankalgorithmneedstocomputethescoreofeverywebpage,whichmakestheproblemofstoringthesewebnodescritical.ThispaperUSeSformuladeductionandcharacteristicsofsparsearraytosolvethisproblem,andattheresult,reducedthespacecomplexityfromsquaretolinear,andimprovedthecomputation
5、efficiencymeanwhile.Second,thispaperproposesamethodofcombiningparagraphrankingandfulltextrankingtoimproveretrievalresult.ThemethodofrankingbasedonparagraphsCanimproveprecisionbutwillmakerecallreduce,toavoidthis,thisPapercombinedtheScoreofparagraphrankingwithfulltextranking,thatwillmakesureth
6、erecallofretrieval.Third,thispaperanalysistheadvantagesanddisadvantagesofRocchiorelevancefeedbackalgorithm,WhichiSbasedonvectorspacemodel.KEYWORDS:relevanceranking,PageRank,paragraphretrieval,Rocchio独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研
7、究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:f至l立日期:邋:z:z2—1/关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布
此文档下载收益归作者所有