欢迎来到天天文库
浏览记录
ID:33770289
大小:1.15 MB
页数:69页
时间:2019-03-01
《基于lucene的主题搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:密级:UDC:编号:河北工业大学硕士学位论文基于Lucene的主题搜索引擎的研究与实现论文作者:张升学生类别:全日制学科门类:工学硕士学科专业:计算机应用技术指导教师:牛存良职称:正高级工程师万方数据万方数据DissertationSubmittedtoHeBeiUniversityofTechnologyforTheMasterDegreeofComputerAppliedTechnologyRESEARCHANDIMPLEMENTATIONOFTHETHEMESEARCHENGINEBASEDONLUCENEbyZha
2、ngShengSupervisor:SeniorEngineerNiuCunliangNovember2013万方数据万方数据原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:日期:关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、
3、使用学位论文的规定。同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:日期:导师签名:日期:万方数据万方数据摘要随着互联网的飞速发展,信息量正以指数规律急剧增长,互联网已经成
4、为人类获取信息的主要途径。信息量的爆炸性增长,使得“信息迷航”和“信息过载”问题日益严重,增加了用户在海量的数据中准确获取理想信息的难度。百度、谷歌等通用搜索引擎在一定程度上解决了这个问题,然而随着用户需求的精细化和专业化,这些通用搜索引擎的“不专业”信息,已经不能使用户满意。随着信息社会的深度发展,这种矛盾也在被不断激化,于是提出了在特定领域进行深度数据挖掘的理论,主题搜索引擎的研究应运而生。主题搜索引擎是一种针对特定主题的专业搜索引擎,它只关心它所限定的主题信息,聚焦于某一领域的深度数据挖掘。旨在满足特定领域专业化检索需求,相
5、比通用搜索引擎可以获取更详细、更全面、更即时的信息。本课题就主题搜索引擎的核心技术进行了全面剖析,在此基础上,提出自己的解决方案。本课题的研究内容可以分为如下五个部分:(1)分析通用搜索引擎的结构、工作流程;(2)研究主题爬行技术,提出基于网页主题信息语义分析和网页链接分析相结合的主题分析算法;(3)分析当前的中文分词技术,为索引建立提供理论依据;(4)研究Lucene全文检索框架技术,以此作为开发工具包;(5)以上述研究为理论依据构建自己的主题搜索引擎,并对结果进行分析,为算法改进提供事实依据。实验结果表明,改进的主题算法具有较
6、高的采集效率和主题区分度,符合预期目标。关键字:检索Lucene主题搜索主题爬虫倒排索引I万方数据ABSTRACTWiththerapiddevelopmentoftheInternet,informationisgrowingrapidly.AndtheInternethasbecomeaprimarywaytoobtaininformation.The“informationoverload”isbecomingmoreandmoreseriouslywiththeexplosivegrowthoftheinformation
7、,andthisphenomenonincreasesthedifficultytogettheinformationaccuratelyinthevastamountsofdata.ThoughBaidu,Googleandothergeneralsearchenginestrytheirbestefforttosolvethisproblem,the"unprofessional"informationofgeneralsearchenginecan’tsatisfyuserswhosearchformoreprofessio
8、nalinformation.Withthedevelopmentoftheinformationsociety,thiskindofcontradictionisbeingintensified,andthetheoryofdepthdatami
此文档下载收益归作者所有