欢迎来到天天文库
浏览记录
ID:36803736
大小:2.69 MB
页数:74页
时间:2019-05-15
《基于CLucene和Larbin的企业搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要随着企业的发展以及企业信息化建设的不断推进,电子商务、门户网站得到广泛的推广,企业内部信息量增长速度非常快。面对如此巨大的信息量,传统的信息获取方法已经远远不能满足人们快速准确获取信息的需求。常见的通用搜索引擎能够满足用户搜索网络信息的需求,但是在搜索企业信息时,这类搜索引擎就无法达到用户的期望了。企业搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。企业搜索引擎的出现,正是为了解决此类问题。本文设计并实现了一个企业搜索引擎的原型系统,该系统为进一步研究企业搜索引擎打下了良好的基础。主要工
2、作包括:1.论述了企业搜索引擎的研究意义以及体系结构。2.介绍了搜索引擎的基本概念以及工作原理,并深入研究了搜索引擎的核心技术,包括中文分词,爬取算法等。3.基于Larbin开源爬虫,通过扩展功能实现企业内部搜索引擎的爬虫,包括编码转换、页面登录、URL过滤以及网页消噪等。4.深入分析CLucene,索引和搜索部分利用了CLucene引擎架构。5.实现了更有效的中文分词算法。专业应用领域对分词速度和准确性有特殊要求。提出了一种基于专有名词优先的中文分词方法:利用专业词典、通用词典和同义词词典相结合的词典机制,优先切分专有名词,对粗分结果
3、利用砸野锄模型进行消歧而获取最终结果。关键词:企业搜索引擎、Larbin、CLucene、中文分词ABSTRACT●___-●___●_________。____--__●_________-_____--_-_I-_●__I__●____________●-I___-________-_________●●-______●_-___●-__。_。’’。-_●_--__--__●一●-__-●一ABSTRACTWimt11erapiddeVelopmentofente印riseandtheimproVementofe11te叩risei
4、nfo肌ationcons仃uction,E-businessaJldponalsitearewidelyused,whichleadsaresultthatente印risei11nerinformation伊owrapidly.Facingwithsuchlargeamountsofinfonnation,traditionalinfomlationret订evalmemodscannotsatis毋people’sdemandforaccesstoinf0肌ation丘omthehugee11te印risei皿erinfo肌ati
5、onquicklyandaccurately.Currently,peoplesearc_hforinfo彻ationonthemtemetprimarilymrou曲generalsearchengiIles.The如nctionofthesesearchen百neshasbeenstronga11dtheycanmeetmostuserS’needs.However,asforente印risethemes,suchsearchen西neswillbeinSu伍cient.Ente印risesearchen百nefacesmefol
6、lowingtechnicaldimculties:nmlti—sourceheterogeneousdatatypes,comprehensiVenessoft11esearchingcontent,accuracyofsearchingaIldpersonalizedsearcha11dsoon.Theemergenceofent印risesearchen百neisspecificallyforsolVingmisproblem.Wedesignandimpl锄entaprototypesystemofenterprisesearc
7、hengine,actuallyoursystemcaJlprovidesomehelpforresearchingente印一sesearche11舀ne.Themaintasksincluded:1.Discussingthesi伊ificance,architecn】reofente印risesearchengine.2.111troducingt11ebasicconc印tsandprinciplesofsearchen百ne,researchingthee11te印risesearchen百ne’scorctechn0109)
8、rincludingChinesewordsegmentation,webcrawlingalgo—t111Tlandsoon.3.Developingthespiderofente印^sesearchen
此文档下载收益归作者所有