基于ajax+lucene构建搜索引擎的设计和实现

基于ajax+lucene构建搜索引擎的设计和实现

ID:26182318

大小:54.50 KB

页数:5页

时间:2018-11-25

基于ajax+lucene构建搜索引擎的设计和实现  _第1页
基于ajax+lucene构建搜索引擎的设计和实现  _第2页
基于ajax+lucene构建搜索引擎的设计和实现  _第3页
基于ajax+lucene构建搜索引擎的设计和实现  _第4页
基于ajax+lucene构建搜索引擎的设计和实现  _第5页
资源描述:

《基于ajax+lucene构建搜索引擎的设计和实现 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Ajax+Lucene构建搜索引擎的设计和实现摘要通过搜索引擎从互联网上获取有用信息已经成为人们生活的重要组成部分,Lucene是构建搜索引擎的其中一种方式。搜索引擎系统是在Net平台上用C#开发的,数据库是MSSQLServer2000。主要完成的功能有:用爬虫抓取网页;获取有效信息放入数据库;通过Lucene建立索引;对简单关键字进行搜索;使用Ajax的局部刷新页面展示结果。论文详细说明了系统开发的背景,开发环境,系统的需求分析,以及功能的设计与实现。同时讲述了搜索引擎的原理,系统功能,并探讨使用Ajax与服务器进行数据异步交互,从而改善现有的icrosoftVisualStudi

2、o.2003作为开发平台,开发语言选择了C#;数据库采用MicrosoftSQLServer2000)。由于Lucene不是完整的搜索引擎程序,只为搜索引擎应用提供了工具包,在Asp.平台中,可使用Lucene.这个对Lucene兼容的库。使用Lucene.协助完成搜索引擎相关的网页爬虫与抓取,为文档建立索引,关键词搜索的功能,通过Ajax优化系统,完成页面的局部刷新功能,给用户好的体验。2Lucene.构建搜索引擎原理2.1全文搜索引擎2.1.1搜索引擎的分类获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。真正意义上的搜索引擎,通常指的是收集了因特网上几千万

3、到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度排列。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索和分类目录。全文搜索引擎通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器

4、人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果。分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录。2.1.2搜索引擎的工作原理搜索引擎的原理,可以看作三步:从互联网上抓取网页,建立索引数据库,在索引数据库中搜索。全文搜索引擎的“网络蜘蛛”能够扫描一定地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络

5、机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定规则呈现给我们。不同的搜索引擎,网页索引数据库不同,搜索结果也就不尽相同。利用能够从互联网上自动收集网页的Spider程序,自动访问互联网,并沿着网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。然后建立索引数据库,由分析索引程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在

6、URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),然后用这些相关信息建立网页索引数据库。接下来在索引数据库中搜索排序,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎只能搜到它网页索引数据库里储存的内容。2.2Lucene与搜索引擎Lucene是一个全文信息检索工具包,为应用程序提供索引和搜索功能。和JavaLucene兼容的Lucene.可以用在.平台。Lucene能够为文本类型的数据建立索引,所以你只要能把你要索引的

7、数据格式转化的文本的,Lucene就能对你的文档进行索引和搜索。比如你要对一些HTML文档,PDF文档进行索引的话你就首先需要把HTML文档和PDF文档转化成文本格式的,然后将转化后的内容交给Lucene进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不规定要索引的文档的格式也使Lucene能够适用于几乎所有的搜索应用程序。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。