Nutch搜索引擎中网页排序技术的研究

Nutch搜索引擎中网页排序技术的研究

ID:36473810

大小:2.25 MB

页数:48页

时间:2019-05-11

Nutch搜索引擎中网页排序技术的研究_第1页
Nutch搜索引擎中网页排序技术的研究_第2页
Nutch搜索引擎中网页排序技术的研究_第3页
Nutch搜索引擎中网页排序技术的研究_第4页
Nutch搜索引擎中网页排序技术的研究_第5页
资源描述:

《Nutch搜索引擎中网页排序技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号至£三窆UDC004.7广西大学硕士学位论文Nutch搜索引擎中网页排序技术的研究潘涛学科专业让簋扭丕统结构指导教师鎏正友数援论文答辩日期2Q!Q生§目2窆旦学位授予日期答辩委员会主席王遗速塾援IitItll1IIl9031原创性声明本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相关知识产权属广西大学所有,本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容。除已注明部分外,论文中不包含其他人已经发表过的研究成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮助的个人和集体,均已在论文中明确说明并致谢。论文作者签名:纠口年占月2b

2、日学位论文使用授权说明本人完全了解广西大学关于收集、保存、使用学位论文的规定,即:按照学校要求提交学位论文的印刷本和电子版本:学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。请选择发布时间:d即时发布口解密后发布(保密论文需注明,并在解密后遵守此规定)论文作者签名:、彳勿沙例导师签名辍纠留年占月三汨Nutch搜索引擎中网页排序技术的研究摘要随着互联网技术的不断发展,搜索引擎已经成为人们获取网络信息的主要工具。研究搜索引擎网页排序的目的是从众多搜索结果中将内容相关和

3、权威的网页排在前面,帮助用户迅速定位需要的网络资源。网页排序算法直接影响到搜索引擎信息检索的准确率和用户使用满意度。Nutch是基于Java实现的开源搜索引擎。通过对Nutch进行深入研究,指出其目前存在的两大问题,其一是没有实现PageRank算法,影响了最终排序效果;其二是对中文进行单字切分,影响了查询结果准确率。首先,针对目前Nutch搜索引擎中没有实现网页PageRank计算的问题,利用MapReduce并行计算模型处理大数据集的优势,在Nutch机群系统上设计和实现了基于MapReduce的PageRank分布式并行算法。实验结果表明:处理的数据量越大,机群中的节点越多,计算Pag

4、eRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。然后,针对目前Nutch对中文进行单字切分的问题,加入了JE中文分词器对Nutch的中文分词进行改进。在分析和研究经典PageRank算法原理的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。为了改善Nutch基于Lucene的网页综合排序模型,将改进后的PageRank算法因子融入到Nutch网页评分计算公式当中。实验表明,改进后Nutch明显提高了查询结果的准确率,改善了中文网页的排序效果。关键词:Nutch搜索引擎网页排序PageRank算法中文分词MapReduce并行模型RESEARCHOFWEBPAG

5、ESRANKINGINNUTCHSEARCHENGINEABSTRACTWiththecontinuousdevelopmentofInternettechnique,searchenginehasbecomethemaintoolforpeopletoobtainnetworkinformation.Theresearchgoalofwebpagesrankinginsearchengineisputtingtherelatedandauthoritativewebpagesinthefrontofmanysearchresultsandhelpingusertolocatethenetw

6、orkresourcerapidly.Theinformationretrievalaccuracyofsearch‘anduser;atisfaction‘ffectedbytheWebrankingsearchengineandUSersatlstactlonISattecteatheWeDpagesyalgorithmdirectly.NutchisanopensourcesearchenginebasedonJava.Nutchhasbeenresearchedindetail.Presently,therearetwodefectsinNutch.Firstly,thePageRa

7、nkalgorithmisnotimplemented,SOthequalityofwebpagesrankingisinfluenced.Secondly,theChineseindividualcharactersegmentationisused,SOtheaccuracyofsearchresultsisaffected.First,inviewofthedefectinNutchwhichhasno

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。