【硕士论文】搜索引擎去重算法的研究与实现.pdf

【硕士论文】搜索引擎去重算法的研究与实现.pdf

ID:32133706

大小:3.82 MB

页数:57页

时间:2019-01-31

【硕士论文】搜索引擎去重算法的研究与实现.pdf_第1页
【硕士论文】搜索引擎去重算法的研究与实现.pdf_第2页
【硕士论文】搜索引擎去重算法的研究与实现.pdf_第3页
【硕士论文】搜索引擎去重算法的研究与实现.pdf_第4页
【硕士论文】搜索引擎去重算法的研究与实现.pdf_第5页
资源描述:

《【硕士论文】搜索引擎去重算法的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、江苏大学硕士学位论文摘要Web挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着重要的作用,同时也促进网络信息获取技术向高精度、智能化方向发展。搜索引擎在给用户获取信息带来方便的同时也把用户带入了信息过载的窘境。如何充分利用网络资源,把更有效、更准确的信息提供给用户,这已成为搜索引擎技术研究的热点问题。本文针对搜索引擎系统中若干关键技术进行了较深入的研究,主要做了如下工作:(1)提出了一种基于关键词和特征码的网页去重K.CC算法。在分析国内外目前比较通用的几种

2、去重技术的基础上,提出了一种基于关键词和特征码的网页去重K-CC算法,并和国内其他两种常用算法叫,I也算法和基于标点符号的算法进行了实验比较,实验结果表明本算法优于上述两种算法。(2)分析了目前国内外几种主流网页排序算法,如PageRank算法及其改进算法、WTPR算法等,并对它们的优缺点进行了分析;针对Lucene并没有考虑到排序中文档的相关性和时间性的问题,在Lucene中的设计实现了WTPR算法模块。(3)将网页去重K—CC算法模块内嵌到Lucene中,设计实现了基于Lucene的搜索引擎实验系统。实验结果表明

3、,改进后的系统性能优于原始系统。关键词:搜索引擎,PageRank,超链接,去重,页面排序,Lucene江苏大学硕士学位论文ABSTRACTWebMiningisourrequestingatheringinformationfrombigscaleknowledge.AsforSearchEngine,WebMiningtechnologyplaysanimportantroleindevelopmentofthethirdgenerationofsearchengine,andmeanwhile,itpromot

4、esthenetworkinformationacquiringtechnologytoahighprecisionandintelligentway.HowtoobtaintheusefulinformationfromvastcontentsquicklyandaccuratelyisaproblemforpeoplewhoareenjoyingtheconvenienceoftheIntemet.Thisthesiswillfocusontheseproblemsoftakinggoodadvantageoft

5、heinformationandprovidingusersamoreeffectivewaytomoreefficientsearching.Thoseareheatedproblemsbeingdiscussedinthefiledofsearchenginetechnology。ThethesiscentersonthekeytechnologiesofChinesesearchenginesystem.Thefollowingpointsareconcerned:(1).Analgorithmofelimin

6、atingduplicatedwebpagebasedontheextractionofkeywordsofthewebpageispresented,whichbasedontheanalysisofthetraditionalalgorithmsofdetectingduplicationtechnology.Theexperimentindicatestheimprovedalgorithmisbetterthanthetraditionalonesinboththeprocessspeedandthereca

7、llrate.(2)Sometraditionalsortalgorithms,thatisPageRankalgorithmandWTPRalgorithm,theiradvantageanddisadvantageareanalyzed.AccordingtOuncondering、析ththedocuments’relativityandthetemporalinLucene.theWTPRalgorithmmodulehasbeendesignedandimplemented.(3)Asearchengine

8、experimentprototypesystembasedonLucenetoolkithasbeenbuilt.embededwithK—CCalgorithmmodules.Expermentalresultsshowthattheimprovedrankingalgorithmandthealgorithmofremovingdupli

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。