资源描述:
《搜索引擎的设计与实现_学位论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10128学号:040201015本科毕业设计说明书题目:搜索引擎的设计与实现学生姓名:庞佳学院:信息工程学院系别:计算机专业:计算机科学与技术班级:计算机04-2指导教师:苏依拉副教授钱庭荣工程师二〇〇八年六月内蒙古工业大学本科毕业设计说明书摘要为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息,搜索引擎逐渐走进了人们的生活,“竹竹”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。使读者能够初步了解搜索引擎技术。然后,详细介绍了“竹竹
2、”搜索引擎系统。“竹竹”搜索引擎是基于Web的,面向笔记本电脑品牌的搜索引擎。系统的前端以MVC模式来实现,Spring做中间层,JDBC作后端来开发实现的。本系统分为三个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中;采用的实现方法是使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,由于笔记本电脑的品牌名在现有词库中不存在,因此要建立其特有的词库文件,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中;采用的实现方法是:通过Lu
3、cene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。用户模块实现的主要功能是:用户模块是系统的用户接口,用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的品牌信息后,系统将在可以接受的时间内,返回用户所需的结果集;采用的实现方法是:通过DWR封装了AJAX技术,处理用户请求;通过Lucene的API来实现检索。关键词:搜索引擎;Lucene;HeritrixAbstract内蒙古工业大学本科毕业设计说明书Inordertoadapttotherapidgrowt
4、hofinformationnetworks,andcanquicklyandeasilyaccesstoinformationfromthenetwork,searchenginesgraduallycomeintopeople'slives,"zhuzhu"searchenginesystemisbuildedinsuchconditions.Thispaperfirstintroducedthesystem,theconceptofsearchengines,thedevelopmentofhistory,an
5、dsearchenginescategory.Sothatreaderscanunderstandthesearchenginetechnology.Then,detailsofthe"zhuzhu"searchenginesystem."zhuzhu"searchengineisaWeb-based,brand-orientednotebookcomputersearchengine.Thefront-endsystemismadebymodelMVC,Springtothemiddlelayer,JDBCfort
6、heback-end.Thesystemisdividedintothreesub-module,crawlmodulefortherealizationofthefunctions:Massiveonthewebpagetocrawlintothesystem;usingthemethodisusedtorunningHeritrix.Processingmodulefortherealizationofthefunctions:Analysisofthepage,whichextractusefulcontent
7、,pagesthesaurus,becausethebrandofnotebookcomputersavailableinthethesaurusdoesnotexist,toestablishitsuniquelexicondocuments,analysisofthepageInformationgeneratedbyWorddocuments,andindex,theindexwillbedepositedinthedatabase;methodisused:LuceneAPItoachievetheconte
8、ntofthecableconstruction,theuseoftheAPIHTMLParserachievethewebcontentanalysis.Usermoduletoachievethemainfunctionsare:theusermoduleistheuserinterface,theuserthroughthecomplet