欢迎来到天天文库
浏览记录
ID:26808621
大小:51.50 KB
页数:4页
时间:2018-11-29
《基于lucene的企业搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Lucene的企业搜索引擎设计与实现 摘要:现代企业信息化水平日益提高,长期积累下来的大量信息往往形态各异,且分散于企业网络或者员工电脑的各个角落,导致企业人员找到自己需要的数据变得十分困难,必须借助搜索引擎来解决这一难题。通过深入分析,研究Lucene的优点及其系统结构、数据流和索引结构,最后以Lucene为核心,结合ICTCLAS分词系统,成功构建了一个企业搜索引擎系统,实现了对PDF、L这些非结构化数据的全文检索。 关键词:搜索引擎;Lucene;企业搜索;中文分词 1引言 伴随着企业信息化进程的加快,信息搜索与查询技术己经成为影响企业综合效率的关键因
2、素。许多企业己经建立了自己的内部网络(Intra),企业的规模越来越大,积累的信息库也越来越多。传统的信息检索方式,要耗费大量的人力和物力,更重要的是由于信息流通不畅,信息得不到充分的利用,资料的查询和利用过程常常受某些因素的影响而造成人力和物力的浪费,甚至因无法及时准确地得到正确的资料而失去发展的机会。于是,使用搜索引擎来迅速准确地获取企业内部的信息,自然而然成为了一个合理的选择。 2搜索引擎 搜索引擎(SearchEngine)是随着cat6.0,myEclipse8.0。 4.2非结构化文档解析 4.2.1HTML网页解析 HTML(HyperTextMark
3、upLanguage,超文本置标语言)是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。它是世界上最广泛使用的信息载体之一,企业内保存了大量的HTML网页,所以对HTML网页进行解析是企业搜索引擎开发中不可避免的问题。本文使用开源项目HTMLParser来实现HTML网页的解析,版本为HTMLParser-2.0。其在分析处理中通过一系列的Tag对象,形成网页的树结构。 publicstaticvoidParserHtmlText(Stringurl,StringpageEncoding)throent(i); Stringline=textnode.toP
4、lainTextString().trim(); } parser.vistiALLNodesentFormat,它是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在e)throinstream=ne(filename); PDFParserparser=ne); parser.parse(); PDFDocumentpdfdocument=parser.getPDFDocument(); PDFTextStripperpdfstripper=neent); } 4.2.3. publicstaticvoidGet,是当前世界上
5、最好的汉语词法分析器之一。ent=neent(); Fieldfield_name=nee,file.getName(), Field.Store.YES,Field.Index.UN_TOKENIZED); document.add(field_name); Fieldfield_path=neent.add(field_path); Fieldfield_content=neent.add(field_content); rament(document); raml. [10]杨永毅.基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现[D].重庆
6、:重庆大学,2009.
此文档下载收益归作者所有