搜索引擎的设计与实现_学位论文.doc

搜索引擎的设计与实现_学位论文.doc

ID:14375132

大小:3.87 MB

页数:41页

时间:2018-07-28

搜索引擎的设计与实现_学位论文.doc_第1页
搜索引擎的设计与实现_学位论文.doc_第2页
搜索引擎的设计与实现_学位论文.doc_第3页
搜索引擎的设计与实现_学位论文.doc_第4页
搜索引擎的设计与实现_学位论文.doc_第5页
资源描述:

《搜索引擎的设计与实现_学位论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10128学号:040201015本科毕业设计说明书题目:搜索引擎的设计与实现学生姓名:庞佳学院:信息工程学院系别:计算机专业:计算机科学与技术班级:计算机04-2指导教师:苏依拉副教授钱庭荣工程师二〇〇八年六月内蒙古工业大学本科毕业设计说明书摘要为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息,搜索引擎逐渐走进了人们的生活,“竹竹”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。使读者能够初步了解搜索引擎技术。然后,详细介绍了“竹竹

2、”搜索引擎系统。“竹竹”搜索引擎是基于Web的,面向笔记本电脑品牌的搜索引擎。系统的前端以MVC模式来实现,Spring做中间层,JDBC作后端来开发实现的。本系统分为三个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中;采用的实现方法是使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,由于笔记本电脑的品牌名在现有词库中不存在,因此要建立其特有的词库文件,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中;采用的实现方法是:通过Lu

3、cene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。用户模块实现的主要功能是:用户模块是系统的用户接口,用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的品牌信息后,系统将在可以接受的时间内,返回用户所需的结果集;采用的实现方法是:通过DWR封装了AJAX技术,处理用户请求;通过Lucene的API来实现检索。关键词:搜索引擎;Lucene;HeritrixAbstract内蒙古工业大学本科毕业设计说明书Inordertoadapttotherapidgrowt

4、hofinformationnetworks,andcanquicklyandeasilyaccesstoinformationfromthenetwork,searchenginesgraduallycomeintopeople'slives,"zhuzhu"searchenginesystemisbuildedinsuchconditions.Thispaperfirstintroducedthesystem,theconceptofsearchengines,thedevelopmentofhistory,an

5、dsearchenginescategory.Sothatreaderscanunderstandthesearchenginetechnology.Then,detailsofthe"zhuzhu"searchenginesystem."zhuzhu"searchengineisaWeb-based,brand-orientednotebookcomputersearchengine.Thefront-endsystemismadebymodelMVC,Springtothemiddlelayer,JDBCfort

6、heback-end.Thesystemisdividedintothreesub-module,crawlmodulefortherealizationofthefunctions:Massiveonthewebpagetocrawlintothesystem;usingthemethodisusedtorunningHeritrix.Processingmodulefortherealizationofthefunctions:Analysisofthepage,whichextractusefulcontent

7、,pagesthesaurus,becausethebrandofnotebookcomputersavailableinthethesaurusdoesnotexist,toestablishitsuniquelexicondocuments,analysisofthepageInformationgeneratedbyWorddocuments,andindex,theindexwillbedepositedinthedatabase;methodisused:LuceneAPItoachievetheconte

8、ntofthecableconstruction,theuseoftheAPIHTMLParserachievethewebcontentanalysis.Usermoduletoachievethemainfunctionsare:theusermoduleistheuserinterface,theuserthroughthecomplet

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。