【硕士论文】搜索引擎检索技术研究.pdf

【硕士论文】搜索引擎检索技术研究.pdf

ID:32034153

大小:3.10 MB

页数:48页

时间:2019-01-30

【硕士论文】搜索引擎检索技术研究.pdf_第1页
【硕士论文】搜索引擎检索技术研究.pdf_第2页
【硕士论文】搜索引擎检索技术研究.pdf_第3页
【硕士论文】搜索引擎检索技术研究.pdf_第4页
【硕士论文】搜索引擎检索技术研究.pdf_第5页
资源描述:

《【硕士论文】搜索引擎检索技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要随着Intel'net迅猛发展,搜索引擎已经成为人们进行信息获取必不可少的工具。检索技术作为搜索引擎的核心技术之一,对信息准确、快速地获取起到了至关重要的作用。本文在传统向量空间模型的基础上,提出了一种改进的向量空间模型,该模型充分考虑了文档结构对词的重要性的影响,利用该模型进行相似度计算时,避免了向量空间模型查全率和查准率不高的缺点。在检索模型和缓存技术研究基础上,设计并实现了一个高效的检索系统,该检索系统包括查询器和缓存机制两个部分:查询器实现了简单查询和复杂查询两种查询方式;缓存机制制定了基于LRU

2、和LFU的两种基本缓存策略,并采用哈希表缓存查找算法提高缓存查找效率。实验结果表明本文设计的检索系统的检索性能和缓存性能,都达到了实用的水平。关键词:搜索引擎检索模型查询器缓存机制Absll-actAbstractWiththerapiddevelopmentofInternet,SearchEnginehasbecomeallindispensabletoolforpeopletogetinformation.AsthecoretechnologyofSearchEngine,retrievaltechnolo

3、gyplaysanimportantroleingettinginformationaccuratelyandrapidly.BasedORthestudyoftraditionalretrievalmodels,thepaperbroughtforwardaModelwhichtookfullconsideroftheimportancethatfilestructuretothewords.Itavoidedtheshortcomingsoflowaccurateandentirequeryratewhenu

4、singthemodeltOcalculatethesimilarity.Basedonthestudyofretrievalmodelandcachetechnology,thepaperdesignedandimplementedanefficientretrievalsystemwhichincludedqueryandcachemechanismforthetwoparts:thequeryhassimpleandcomplexretrievalmethods;thecachemechanismmadet

5、wobasiccachestrategiesbasedonLRUandLFU,anditalsousedthecachequeryalgorithmofhashtabletoimproveefficiency.Theexperimentalresultsshowthattheretrievalandcacheperformanceoftheretrievalhasreacheda1evel.systempracticalKeyword:SearchEngineRetrievalModalQueryCacheMec

6、hanism第一章绪论第一章绪论l。1课题研究的霹的和意义随着Intemet的迅速发展,社会信息化的推进和网络应用的日益广泛,Web已经成为存取信息的主要平台。它允许任何人、在任何地点、任何时间传播和获取信息;用户既是信息消费者,又是信息的生产者。这一机制为信息在全球范围发布和传播提供了机会,同时也弓

7、发了“信息爆炸’’。全球用户量最大的搜索弓

8、擎Google在其网站上标明已索引了81亿个网页【l】,中国互联网络信息资源的第15次数量调查显示,截至2004年12胄底,中篱域名数量首次突破百万大关,全囡网站达到66

9、.9万个,网页总数超过3亿个,网民已达9400余万,使用宽带上网的就达4280万【2】。人们在利用www过程中,最主要的获取信息资源的途径是借助搜索引擎来实现。CNNIC(qb囤互联网络信息中心)于2004年12月发布的中国互联网络发展状况统计报告的最新统计资料表明【2】,有85%的入是通过搜索雩}擎发现新黼站的,在经常使用的网络服务中搜索引擎占70%,仪次于电子邮件。美国著名网络评估公司尼尔森公司2004年12月23尽公布的最新报告显示,今年lO月闻有l亿美匿人,即美国全国人口的39%,网民总数的76%使用了搜

10、索引擎网站,平均每人的使用时闯为40分钟。其中,52%的网民在使用搜索弓

11、擎时最重视信息内容的相关性,34%最重视信息内容的可信度。由于网络存在大量的、分散的信息,人们在搜索自己需要的信息时,需要花大量的时间等待或是判断,才能筛选出部分重要的相关信息。Www信息检索成为一个重要而又困难的问题,因此,网络信息检索成为目前的一个热门研究课题。有不少研究活动讨论如何增进搜索结果

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。