欢迎来到天天文库
浏览记录
ID:30790921
大小:398.00 KB
页数:9页
时间:2019-01-03
《曹_选题指南8_基于lucene和heritrix开发图书信息搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、.石河子大学毕业论文(设计)选题指南信息科学与技术学院计科专业2010年级指导教师曹传东职称系统分析师、高工填报时间2013-11-6课题名称基于Lucene和Heritrix开发图书信息搜索引擎课题来源1科研题目2生产现场3自拟题目√课题类型1论文型2设计型√完成课题所需时间12周—14周所需学生人数1实习(考察)地点论文(设计)地点本院网络工程实验室立题依据在日常生活中我们无法对一个特定的领域实时保持深入的了解,但当有这样的需求时,往往需要花费大量的时间进行信息获取和资料的收集,比较显著的一个例子就是图书订购前的信息检索。
2、因为使用大家熟知的搜索引擎如Google、百度等通用搜索引擎时,搜索结果集会十分庞大,且广告垃圾链接较多,这对于那些初学者或者一段时间没有关注该方面专门信息的人群来说,一时间很难从海量的结果数据中找到真正有用的信息。因此,如果能够开发一个专门提供图书信息查询服务的搜索引擎,通过提供给用户一个类似于通用搜索引擎的简单页面,用户只需输入书名、作者等关键词,系统便能将相关的图书信息返回给用户。这样,用户就能以最快速高效的方式查询到某本书的准确信息,而不会因为垃圾信息量过大而耗费大量时间和精力。因此,设计开发能够针对某一特定领域、某一
3、特定人群或某一特定需求提供有价值的全文检索服务的定制搜索引擎,满足用户对某方面专门信息“专、精、深”的检索需求,是十分必要的。谷歌学术搜索就是这方面的一个很好的实例。本课题拟综合利用搜索引擎、数据库管理系统、JavaWeb编程开发等技术,基于EclipseJavaIDE或MyEclipse集成开发环境,设计实现一个专门用于图书信息查询的搜索引擎系统。该搜索引擎的系统结构包括3大部分:网络搜索(爬虫部分)、信息提取与处理、(前端)和用户的交互界面。其中,在前端与用户交互的主页页面类似如图1所示的示例,包括3个部分:即查询关键字(
4、用户可在此输入书名等)和搜索按钮、搜索结果URL列表(包括书名、作者、出版社和实际的URL),以及用户单击结果列表中的某个链接后显示的该本书的详细信息(如书名、著者、出版社、出版日期、版本号、ISBN书号、开本大小、实际URL)。图1系统前端交互界面页面显示示例由于搜索引擎的工作流程主要分为三步:从互联网抓取网页→创建抓取网页的索引库→...从索引库中进行搜索。因此首先需要设计实现一个能访问网络的爬虫器程序,依据URL之间的关联性自动爬行整个互联网,并对爬行过的网页进行抓取收集。当网页被收集回来后,采用索引分析程序进行网页信息
5、的分析,依据一定的相关度算法(如超链接算法)进行大量计算,创建倒排序的索引库。索引库建好后,用户就可以通过提供的查询界面提交关键词进行搜索,依据特定的排序算法返回搜索结果。因此,搜索引擎并不是对互联网进行直接搜索,而是对已抓取网页索引库的搜索,这也是能快速返回搜索结果的原因,索引在其中扮演了最重要的角色,索引算法的效率直接影响搜索引擎的效率,是评测搜索引擎是否高效的关键因素。网页爬行器、索引器、查询器共同构成了搜索引擎的重要组成单元。但是,针对特定的语言,如中文、日文、韩文等,并不像英文那样可简单地识别出关键词来(因为英语的一
6、句话是用空格分割词语的),因此,在索引器创建索引之前,以及查询器处理用户输入的关键词时,还需要分词器对某种语言的文本进行分词。一般情况下,分词器将一段文本拆分成多个词后,还需要进一步进行过滤处理,如去掉一些敏感词、转换大小写和单复数等,也就是说,除了上面所说的3个关键组件之外,由分词器和过滤器一起构成的所谓文本分析器,也是搜索引擎应当包含的一个重要组件。由于开放源代码搜索引擎项目为人们学习、研究并掌握上述搜索引擎各个关键组件的实现技术提供了极好的途径与素材,推动了搜索引擎技术的普及与发展,使得越来越多的人开始了解并推广使用搜索
7、引擎技术。使用开源搜索引擎,不仅可以大大缩短构建搜索应用服务器的周期,并可根据应用需求,打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。开放源代码的搜索引擎为用户提供了极大的透明性,开放的源代码、公开的排序算法、随意的可定制性,相比于商业搜索引擎而言,更为用户所需要。由于目前国内外已经有一些开放源代码的搜索引擎项目,主要集在中搜索引擎开发工具包与架构、Web搜索引擎、文件搜索引擎几个方面,因此,本课题将采用当前一个比较流行且相对比较成熟的搜索引擎开源项目-Lu
8、cene。Lucene可以说是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家DougCutting所发起,并以其妻子的中间名作为项目的名称,放在SourceForge的网站上提供下载。2001年9月,Lucene作为高质量的开源
此文档下载收益归作者所有