基于CLucene和Larbin的企业搜索引擎的研究与实现

基于CLucene和Larbin的企业搜索引擎的研究与实现

ID:36803736

大小:2.69 MB

页数:74页

时间:2019-05-15

基于CLucene和Larbin的企业搜索引擎的研究与实现_第1页
基于CLucene和Larbin的企业搜索引擎的研究与实现_第2页
基于CLucene和Larbin的企业搜索引擎的研究与实现_第3页
基于CLucene和Larbin的企业搜索引擎的研究与实现_第4页
基于CLucene和Larbin的企业搜索引擎的研究与实现_第5页
资源描述:

《基于CLucene和Larbin的企业搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要随着企业的发展以及企业信息化建设的不断推进,电子商务、门户网站得到广泛的推广,企业内部信息量增长速度非常快。面对如此巨大的信息量,传统的信息获取方法已经远远不能满足人们快速准确获取信息的需求。常见的通用搜索引擎能够满足用户搜索网络信息的需求,但是在搜索企业信息时,这类搜索引擎就无法达到用户的期望了。企业搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。企业搜索引擎的出现,正是为了解决此类问题。本文设计并实现了一个企业搜索引擎的原型系统,该系统为进一步研究企业搜索引擎打下了良好的基础。主要工

2、作包括:1.论述了企业搜索引擎的研究意义以及体系结构。2.介绍了搜索引擎的基本概念以及工作原理,并深入研究了搜索引擎的核心技术,包括中文分词,爬取算法等。3.基于Larbin开源爬虫,通过扩展功能实现企业内部搜索引擎的爬虫,包括编码转换、页面登录、URL过滤以及网页消噪等。4.深入分析CLucene,索引和搜索部分利用了CLucene引擎架构。5.实现了更有效的中文分词算法。专业应用领域对分词速度和准确性有特殊要求。提出了一种基于专有名词优先的中文分词方法:利用专业词典、通用词典和同义词词典相结合的词典机制,优先切分专有名词,对粗分结果

3、利用砸野锄模型进行消歧而获取最终结果。关键词:企业搜索引擎、Larbin、CLucene、中文分词ABSTRACT●___-●___●_________。____--__●_________-_____--_-_I-_●__I__●____________●-I___-________-_________●●-______●_-___●-__。_。’’。-_●_--__--__●一●-__-●一ABSTRACTWimt11erapiddeVelopmentofente印riseandtheimproVementofe11te叩risei

4、nfo肌ationcons仃uction,E-businessaJldponalsitearewidelyused,whichleadsaresultthatente印risei11nerinformation伊owrapidly.Facingwithsuchlargeamountsofinfonnation,traditionalinfomlationret订evalmemodscannotsatis毋people’sdemandforaccesstoinf0肌ation丘omthehugee11te印risei皿erinfo肌ati

5、onquicklyandaccurately.Currently,peoplesearc_hforinfo彻ationonthemtemetprimarilymrou曲generalsearchengiIles.The如nctionofthesesearchen百neshasbeenstronga11dtheycanmeetmostuserS’needs.However,asforente印risethemes,suchsearchen西neswillbeinSu伍cient.Ente印risesearchen百nefacesmefol

6、lowingtechnicaldimculties:nmlti—sourceheterogeneousdatatypes,comprehensiVenessoft11esearchingcontent,accuracyofsearchingaIldpersonalizedsearcha11dsoon.Theemergenceofent印risesearchen百neisspecificallyforsolVingmisproblem.Wedesignandimpl锄entaprototypesystemofenterprisesearc

7、hengine,actuallyoursystemcaJlprovidesomehelpforresearchingente印一sesearche11舀ne.Themaintasksincluded:1.Discussingthesi伊ificance,architecn】reofente印risesearchengine.2.111troducingt11ebasicconc印tsandprinciplesofsearchen百ne,researchingthee11te印risesearchen百ne’scorctechn0109)

8、rincludingChinesewordsegmentation,webcrawlingalgo—t111Tlandsoon.3.Developingthespiderofente印^sesearchen

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。