基于lucene_xml技术的web搜索引擎设计与实现new

基于lucene_xml技术的web搜索引擎设计与实现new

ID:33921519

大小:576.62 KB

页数:4页

时间:2019-02-28

基于lucene_xml技术的web搜索引擎设计与实现new_第1页
基于lucene_xml技术的web搜索引擎设计与实现new_第2页
基于lucene_xml技术的web搜索引擎设计与实现new_第3页
基于lucene_xml技术的web搜索引擎设计与实现new_第4页
资源描述:

《基于lucene_xml技术的web搜索引擎设计与实现new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第36卷第4期航空计算技术Vol.36No.42006年7月AeronauticalComputingTechniqueJuly.2006基于LuceneXML技术的Web搜索引擎设计与实现孔伯煊,李祥(贵州大学计算机软件与理论研究所,贵州贵阳550025)摘要:Lucene是一个强大的开放源代码的全文索引引擎工具包,对它进行分析应用有利于研究搜索引擎的相关技术。本文使用LuceneXML技术设计并实现了一个Web搜索引擎,可对Web站点的全部文本、图片、音频三类数据的进行索引;采用了XML作为数据存储容器,可在大信息环境

2、下极大地节省存贮空间和提高索引的速度;同时在客户端方面引进了移动客户搜索界面,把搜索引擎的功能进一步扩大到手机客户,在移动通信高速发展的今天,有着重要的意义。关键词:搜索引擎;Lucene;XML;索引;检索;Wap中图分类号:TP393.092文献标识码:A文章编号:1671O654X(2006)04O0005O04引言提供方便的查看方式。存储模块:建立基于XML的数据存储,这里的目在过去几年里,Internet的资源迅速增长,使Web的是为了提高建立索引的速度跟减小存储的空间。因发展成为包含多种信息资源、站点遍布全球信息服

3、务为规范化的存储能避免对所有搜索到文件都进行单独网络。在这种大环境里,网络上出现了很多商业性的存储,减少存储空间(特别是图片和音频信息),提高Web搜索引擎,如Google、百度、Sougo等,他们极大地管理效率;另外,把搜索到的信息存进单一的XML文方便了网络用户。但由于他们是商业性质,他们的关档中,相对于每个独立文件,它可以减少索引程序进行键技术对于外界是保密的。为推进搜索引擎技术的发文件定位和打开关闭文件所需要的时间,这在数据量展,Apache基金会jakarta推出了一个开源的全文索引比较大的时候效果特别明显。引擎工具

4、包Lucene。本文使用LuceneXML技术设计并实现了一个Web搜索引擎,可对Web站点的全部文本、图片、音频三类数据的进行索引;采用了XML作为2系统的具体实现数据存储容器,可在大信息环境下极大地节省存贮空2.1系统结构间和提高索引的速度;同时在客户端方面引进了移动根据上面所讨论的功能设计目标,一个Web搜索客户搜索界面,把搜索引擎的功能进一步扩大到手机引擎的结构如图1所示。客户。由系统结构图可以看出,本系统大概可分为五块:1)搜索模块(网络爬虫),它主要是从一个URL出发,对整一个Web进行爬行搜索,并且把搜索到的信

5、1功能目标设计息存储在Java的对象里面。本文实现的Web搜索引擎主要由三大功能模块2)文档分析模块,该模块主要针对于HTML网组成:页,它的主要功能是把HTML的标签给去掉。索引模块:首先索引程序需要对Web文档中的三3)XML存储模块,该模块把搜索到的、经过分析类数据进行索引,第一是对HTML文档中的所有文本的信息存储到XML文档里面。数据建立索引;第二是对HTML文当中的MP3数据建4)索引模块,它主要是从XML文件里面提取有用立索引;第三是对HTML文档中的常见图像格式建立的信息并对其进行索引。索引。另外,为索引程序的

6、运行过程建立运行日志,并5)检索模块,它主要是根据客户端的请求进行检存盘。索工作,然后自动把检索到的信息封装成请求客户端检索模块:以Web页面和Wap页面作为用户检索能接受的格式,最后把封装好的信息返回客户端。的界面,对数据进行检索,支持高级查询,对检索结果收稿日期:2006O05O17修订日期:2006O07O19基金项目:美国GeneChu基金资助(GCF2006-001)作者简介:孔伯煊(1980O),男,广东佛山人,硕士研究生,研究方向为计算机网络。©1994-2007ChinaAcademicJournalElect

7、ronicPublishingHouse.Allrightsreserved.http://www.cnki.net·6·航空计算技术第36卷第4期没有价值的,所以要先把这些标签给过滤掉。我们使用了nekoHTML工具包对其进行解析和过滤。之所以使用nekoHTML工具包是因为它能把不完整的HTML标签补充完整,然后再提取文档有价值的内容并把标签去掉。2.2.3基于XML的存储技术我们利用DOM技术进行XML的读写工作,考虑到反复打开关闭XML文件的内存开销,我们决定在建立索引程序结束前才对信息进行XML读写。因为本程序使用X

8、ML文件的主要目的是提供数据存储,所以XML结构应避免过于复杂。2.2.4基于Wap的移动搜索技术我们利用Wap技术为移动用户提供搜索功能,并且在服务器端使用Servlet技术根据搜索到的数据自动生成Wap代码。在显示方面,考虑到手机屏幕大小有限,所以采用了适合手机显示的相关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。