欢迎来到天天文库
浏览记录
ID:47607769
大小:873.01 KB
页数:16页
时间:2019-09-29
《3.金德宪_文献综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、本科毕业设计文献综述(2010届)题目:基于Lucene搜索核心的网络信息搜索网站学生姓名金德宪指导教师刘志专业班级软件工程(专升本)200801所在学院计算机科学与技术学院提交日期2010年3月15基于Lucene搜索核心的网络信息搜索网站摘要:本文是关于网络信息搜索系统的设计与实现的一篇文献综述,先介绍项目的核心成分--搜索引擎的构成与设计思想,然后介绍项目的国内外研究现状及难点以定位项目开发的一个大环境,明确当前同类项目的研究情况。接着本文简述网络信息搜索系统的基本结构和系统开发中需要运用的关键技术。关键词:搜索引擎,lucene,网络蜘蛛,spring,
2、hibernate1、引言随着互联网的迅猛发展,基于互联网的各种应用也应运而生。互联网上的信息也越来越多,因此迫切要求一种信息检索工具。1991年,XWAIS提供了一个界面友好的信息搜索系统,但是这个系统要求很特殊的文件格式。在同一年出现了另外一个信息检索系统GOPHER,GOPHER一时成为最为流行的检索工具。由于GOPHER基于字符界面,一般的互联网用户还是很少使用它。真正让互联网普及的转机出现在1993年。当年美国国家计算机安全协会NCSA推出第一个基于HTML语言的可以浏览图形的浏览器Mosaic。它使得普通的用户可以轻松地使用互联网。1994年,美国网
3、景公司推出免费浏览器Netscape。这使得以HTML为格式的信息迅速膨胀。是年,Yahoo公司创立,它提供基于目录的信息检索服务。而真正意义上的搜索引擎创建于1994年春天的Lycos,当时MichaelMauldin将JohnLeavitt的“网络蜘蛛”(spider)程序接入到其索引程序中[1]。在随后的几年里,互联网和web技术的进一步发展,网上的信息越来越多,据1999年的估计,到1999年底,至少有1600万台主机联入因特网,网上的网页数量已经达到10亿,而且正在以每月近千万的数量增长,甚至有人预言Web页面的数量每隔100到120天要翻一翻。国内外
4、的调查结果都表明,当前互联网上仅次于收发电子邮件的第二大应用就是在网上搜索信息,而这种搜索绝大多数都是通过专门的、高度复杂的搜索引擎实现的。15现在大多数的搜索引擎以搜索文字信息为主。随着网络带宽的不断加大,多媒体信息在网上迅速增加。这就对多媒体信息的检索提出了要求。多媒体信息检索主要是指基于音频的检索、基于图片的静态图象检索和基于视频的动态图象检索。现在研究得较多的是图象检索。由于在搜索过程中很难表达图象信息,所以现有的图象搜索引擎通过对图象信息的文字表达来进行检索。文字信息不能充分表达图象信息,而且对于用户来说,不可能在查询时候很精确地用文字对图象进行合理的
5、描述,所以查询的精度非常低。由于用户一次搜索反馈的过程一般不会超过3次,所以机器学习的过程也不能超过3次就让用户得到所需要查找的信息。微软中国研究院的研究人员提出通过机器学习的方法让用户在3次反馈之内得到比较精确的结果[6]。2、网络信息搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine)。n全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheW
6、eb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结
7、果,如Lycos引擎。n目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords15)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。n元搜索引擎(METASearchEngine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有In
8、foSpace、Dogp
此文档下载收益归作者所有