基于lucene的企业搜索引擎设计与实现

基于lucene的企业搜索引擎设计与实现

ID:26808621

大小:51.50 KB

页数:4页

时间:2018-11-29

基于lucene的企业搜索引擎设计与实现_第1页
基于lucene的企业搜索引擎设计与实现_第2页
基于lucene的企业搜索引擎设计与实现_第3页
基于lucene的企业搜索引擎设计与实现_第4页
资源描述:

《基于lucene的企业搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Lucene的企业搜索引擎设计与实现 摘要:现代企业信息化水平日益提高,长期积累下来的大量信息往往形态各异,且分散于企业网络或者员工电脑的各个角落,导致企业人员找到自己需要的数据变得十分困难,必须借助搜索引擎来解决这一难题。通过深入分析,研究Lucene的优点及其系统结构、数据流和索引结构,最后以Lucene为核心,结合ICTCLAS分词系统,成功构建了一个企业搜索引擎系统,实现了对PDF、L这些非结构化数据的全文检索。  关键词:搜索引擎;Lucene;企业搜索;中文分词      1引言  伴随着企业信息化进程的加快,信息搜索与查询技术己经成为影响企业综合效率的关键因

2、素。许多企业己经建立了自己的内部网络(Intra),企业的规模越来越大,积累的信息库也越来越多。传统的信息检索方式,要耗费大量的人力和物力,更重要的是由于信息流通不畅,信息得不到充分的利用,资料的查询和利用过程常常受某些因素的影响而造成人力和物力的浪费,甚至因无法及时准确地得到正确的资料而失去发展的机会。于是,使用搜索引擎来迅速准确地获取企业内部的信息,自然而然成为了一个合理的选择。  2搜索引擎  搜索引擎(SearchEngine)是随着cat6.0,myEclipse8.0。  4.2非结构化文档解析  4.2.1HTML网页解析  HTML(HyperTextMark

3、upLanguage,超文本置标语言)是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。它是世界上最广泛使用的信息载体之一,企业内保存了大量的HTML网页,所以对HTML网页进行解析是企业搜索引擎开发中不可避免的问题。本文使用开源项目HTMLParser来实现HTML网页的解析,版本为HTMLParser-2.0。其在分析处理中通过一系列的Tag对象,形成网页的树结构。  publicstaticvoidParserHtmlText(Stringurl,StringpageEncoding)throent(i);  Stringline=textnode.toP

4、lainTextString().trim();    }  parser.vistiALLNodesentFormat,它是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在e)throinstream=ne(filename);  PDFParserparser=ne);  parser.parse();  PDFDocumentpdfdocument=parser.getPDFDocument();  PDFTextStripperpdfstripper=neent);    }  4.2.3. publicstaticvoidGet,是当前世界上

5、最好的汉语词法分析器之一。ent=neent();  Fieldfield_name=nee,file.getName(),  Field.Store.YES,Field.Index.UN_TOKENIZED);  document.add(field_name);  Fieldfield_path=neent.add(field_path);  Fieldfield_content=neent.add(field_content);  rament(document);  raml.  [10]杨永毅.基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现[D].重庆

6、:重庆大学,2009.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。