搜索引擎的设计与实现-胡书山

搜索引擎的设计与实现-胡书山

ID:35786066

大小:310.92 KB

页数:55页

时间:2019-04-18

搜索引擎的设计与实现-胡书山_第1页
搜索引擎的设计与实现-胡书山_第2页
搜索引擎的设计与实现-胡书山_第3页
搜索引擎的设计与实现-胡书山_第4页
搜索引擎的设计与实现-胡书山_第5页
资源描述:

《搜索引擎的设计与实现-胡书山》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、学号200532580261密级________________武汉大学本科毕业论文web搜索引擎的设计与实现院(系)名称:国际软件学院专业名称:软件工程学生姓名:胡书山指导教师:冯晶讲师王飞项目经理二○○九年五月BACHELOR'SDEGREETHESISOFWUHANUNIVERSITYThedesignandimplementationofwebsearchengineerCollege:WuhanuniversitySubject:SoftwareengineeringName:HushushanDirectedby:FengjingLectu

2、rerWangfeiProjectmanagerMay2009郑重声明(宋体粗体2号居中)本人呈交的学位论文,是在导师的指导下,独立进行研究工作所取得的成果,所有数据、图片资料真实可靠。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果不包含他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确的方式标明。本学位论文的知识产权归属于培养单位。本人签名:胡书山日期:2009-5-10Google[40],百度[39]这样的通用搜索摘要随着网络的迅猛发展。网络成为信息的极其重要的来源地,越来越多的人从网络上获取自己

3、所需要的信息,这就使得像引擎变成了人们寻找信息必不可少的工具。本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的需求,参照了天网,lucene等搜索引擎的原理,构建了一个运行稳定,性能良好而且可扩充的小型搜索引擎系统,本文不仅仅完成了对整个系统的设计,并且完成了所有的编码工作。本文论述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势,分析了小型搜索引擎的需求,对系统开发中的一些问题,都给出了解决方案,并对方案进行详细设计,编码实现。论文的主要工作及创新如下:1.在深刻理解网络爬虫的工作原理的基础上,使用数据库的来实现爬

4、虫部分。2.在深刻理解了中文切词原理的基础之上,对lucene的切词算法上做出了改进的基础上设计了自己的算法,对改进后的算法实现,并进行了准确率和效率的测试,证明在效率上确实提高。3.在理解了排序索引部分的原理之后,设计了实现索引排序部分结构,完成了详细流程图和编码实现,对完成的代码进行测试。4.在完成搜索部分设计后,觉得效率上还不能够达到系统的要求,于是为了提高系统的搜索效率,采用了缓存搜索页面和对搜索频率较高词语结果缓存的两级缓存原则来提高系统搜索效率。关键词:搜索引擎,网络爬虫,中文切词,排序索引ABSTRACTWiththerapidlydev

5、elopingofthenetwork.Networkbecameavitalinformationsource,moreandmorepeopleareobtainingtheinformationthattheyneedfromthenetwork,thismakingwebsearchenginehasbecomeessentialtooltopeoplewhentheywanttofindsomeinformationfrominternet.Inthispaper,within-depthstudyofthebasicprinciplesof

6、generalsearchengines,thedesignandcoretechnologyarchitecture,combiningwiththeneedsofsmallsearchengineandinthelightofthe"tianwang",lucenesearchengine,Ibuildastable,goodperformanceandcanbeexpandedsmall-scalesearchenginesystem,thisarticlenotonlycompletedthedesignoftheentiresystem,bu

7、talsobasicallycompletedallthecodingwork.Thisarticledescriblenotonlythebackgroundofsearchengines,butalsothehistoryofsearchenginedevelopinganddevelopingtrends,andanalysetheneedsofsmallsearchenginesandgivingsolutionsthetotheproblemswhichwasfoundinthedevelopmentofthesystem,andmaking

8、adetailedprogramdesign,codingtoachieve.Themaint

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。