基于lucene.net的档案垂直搜索引擎的实现

基于lucene.net的档案垂直搜索引擎的实现

ID:23911195

大小:54.50 KB

页数:7页

时间:2018-11-11

基于lucene.net的档案垂直搜索引擎的实现_第1页
基于lucene.net的档案垂直搜索引擎的实现_第2页
基于lucene.net的档案垂直搜索引擎的实现_第3页
基于lucene.net的档案垂直搜索引擎的实现_第4页
基于lucene.net的档案垂直搜索引擎的实现_第5页
资源描述:

《基于lucene.net的档案垂直搜索引擎的实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Lucene.net的档案垂直搜索引擎的实现基于Lucene.的档案垂直搜索引擎的实现计算机技术和网络技术的快速发展推动了档案信息化的发展。但是,我国档案信息化建设还处于初步发展阶段,存在许多问题,一些档案馆只提供档案目录的简单检索而不能提供智能化或专门用于档案领域的搜索服务,各类档案资源成为信息孤岛。如何充分利用现有档案资源,提高档案利用率成为我们急需解决的问题。搜索引擎作为互联网发展的核心技术,将互联网上各种不同格式的网络资源搜集并整理,挖掘其中大量隐含资源,提供海量数据服务于用户,在各行各业发挥着重要的

2、作用①。垂直搜索引擎是在普通搜索引擎的基础上发展而来的,是指专门针对某一特定领域的搜索引擎。档案垂直搜索引擎就是将搜索引擎技术引入档案领域,构建面向档案领域的搜索引擎,该搜索引擎可以大量收集互联网上档案相关资源,进行优化整合,提供给用户具有价值的档案信息,最大限度的满足档案用户的需求。  一、垂直搜索引擎  搜索引擎一般分为通用搜索引擎和垂直搜索引擎,百度、谷歌、搜狗等均属于通用搜索引擎,通用搜索引擎是针对互联网上所有网站的信息进行搜集和检索,其范围覆盖了各个领域和各个行业。垂直搜索引擎是一种特定面向主题的专业搜

3、索引擎,是针对某一特定领域、某一特定人群或某一特定需求,面向某一特定的用户群体,提供更有价值、更准确的信息服务,是通用搜索引擎的细分和延伸②。与通用搜索引擎相比,垂直搜索引擎具有如下特点:  第一,垂直搜索引擎面向特定的领域,其信息量相对较小,但对其特定领域资源的覆盖率较高,信息质量较高,保证了搜索引擎对本领域信息搜集的全面性和实时性。  第二,垂直搜索引擎只涉及特定的领域,用语中出现一词多义的可能性比通用搜索引擎小很多,通过利用特定领域的专业词库,可以保证信息检索的准确性。  第三,网络爬虫在采集特定领域的信息

4、后,需要对该信息进行结构化提取,并进行深度处理,这样就保证了网页信息抽取的准确性,提高用户的查询效率。  二、Lucene.技术介绍  Lucene.是一个由c#开发的开源全文索引库,是从apache的lucene项目移植到.Net平台上的③。Lucene.的开源代码分为核心包和用户接口包,核心包用来实现搜索功能,用户接口包来用实现高亮显示等辅助功能。Lucene.的核心包是由7个子包组成:  (1)索引管理包(Lucene.Net.Index):实现索引的建立、删除和文档中词的排序;(2)检索管理包(Lucen

5、e.Net.Search):利用折半查找进行检索,返回结果;(3)数据存储管理包(Lucene.Net.Store):实现数据存储等IO操作;(4)公用算法包(Lucene.Net.Util):封装了一些常用的函数;(5)文档结构包(Lucene.Net.Documents):描述索引存储中文档结构的管理和操作;(6)查询分析器包(Lucene.Net.QueryParsers):解析查询串,构成查询对象,通过检索器对其调用,返回查询结果;(7)语言分析器包(Lucene.Net.Analysis):用于切分放入

6、索引的文档和查询词,可以通过对Analysis进行扩展来实现对自然语言的处理。  三、基于Lucene.的档案垂直搜索引擎的设计与实现  1.系统的总体设计  基于Lucene.的档案垂直搜索引擎的设计与实现是在windows平台下进行的,开发工具是VisualStudio2010和SQLServer2008数据库。垂直搜索引擎主要是由采集模块、索引模块和检索模块组成。系统的总体设计方案如图1,首先,利用面向档案的主题爬虫通过互联网抓取档案信息。然后利用分词工具对抓取的档案信息进行处理,并建立档案信息对应的索引。

7、最后,由用户输入的关键词,根据已建立的索引进行检索,并返回查询结果给用户。 2.采集模块  (1)普通的网络爬虫是从一些种子站点出发,下载种子URL的网页,分析网页中的超链接,并遍历这些超链接,在遍历链接下载网页的同时,提取网页中有用的信息存储在本地。这种爬虫是不适合档案领域的,因为档案领域的爬虫需要搜索的网络范围有限,它不需要去搜索整个互联网,只需要搜索一些指定的档案网站就可以。所以,数据采集模块的核心就是建立一个档案领域的主题爬虫。该主题爬虫的实现方法是:(1)预先定义好要从哪些档案类网站进行信息采集,将要采

8、集档案网站的URL地址作为初始地址放入到一个专门队列URLQueue中,该队列是用来记录网络爬虫需要遍历访问的所有URL地址,如上图(2)。  (2)从爬虫队列URLQueue中,提取出队列的第一个URL地址,并下载该URL地址对应用的网页。如上图中的(2)。  (3)网络爬虫下载的网页是以文本格式返回的,文本的内容是含有html标签的网页源文件。网页解析器是将网页源文件

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。