欢迎来到天天文库
浏览记录
ID:37062173
大小:6.20 MB
页数:88页
时间:2019-05-16
《基于Lucene.net的站内搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工程硕士学位论文基于Lucene.net的站内搜索引擎设计与实现作者姓名李子健工程领域软件工程校内指导教师陈虎副教授校外指导教师荣霓高级工程师所在学院软件学院论文提交日期2018年4月20日DesignandexperimentofsearchengineInstationbasedonLucene.netADissertationSubmittedfortheDegreeofMasterCandidate:LiZiJianSupervisor:Prof.ChenHuSeniorEngineerRongNiSouthChinaUniversityofTechnologyGuangzho
2、u,China分类号:TP3学校代号:10561学号:201320209436华南理工大学硕士学位论文基于Lucene.net的站内搜索引擎设计与实现作者姓名:李子健指导教师姓名、职称:陈虎副教授;荣霓高级工程师申请学位级别:工程硕士工程领域名称:软件工程论文形式:□产品研发□工程设计应用研究□工程/项目管理□调研报告研究方向:互联网论文提交日期:2018年4月20日论文答辩日期:2018年5月26日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:张平健委员:黄敏、陈虎、汤德佑、徐迪威摘要目前互联网快速发展,各类网络应用快速增加,网络信息呈爆炸性增长。为提高生产效
3、率和生活便利,使信息传播更加快捷,需要一款信息检索工具快速定位用户感兴趣的信息。诚然,当前网络上已经有很多门户网站和像百度、必应等的搜索引擎帮助人们检索信息,但这并不能完全满足用户的日常需求。特别是对于某些局域网、校园网、大型企业园区。这些组织涉及部门多、信息量大、信息私密性高,并且信息的发布往往缺乏一个统一管理,所以他们更需要一个好的信息搜索切入口,当站内信息随着时间积累增多,员工、学生或外来访问者便需要在网站中逐页寻找相关信息或者文件,造成极大不变。因此在本次论文中,本人针对这个具体问题进行了阐述,并提出解决方案。本文主要是研究并设计开发一个针对单位内部的站内搜索引擎,主要针对处于
4、封闭或半封闭的网站群。从零开始介绍搜索引擎的基本架构及其中的关键技术,如爬虫的原理与实现,如何构建索引目录,分词技术的主要方法、搜索排序模型的构建等,接着使用C#语言,并结合关系数据库技术、搜索引擎框架Lucene.net、前端页面技术构建一个完整的站内搜索引擎。开发的内容主要包含两大模块,一个是数据采集模块,主要包含网络爬虫、信息清洗、数据入库、索引构建等功能。另一个是搜索模块,利用数据采集模块建立的索引实现搜索功能,并加入搜索缓存以及敏感词过滤等功能。整个开发流程将按照软件工程开发的要求进行,首先进行需求分析,按照UML标准,使用大量图表的形式介绍模块功能,然后逐步编码实现整个系统
5、,并在文章最后对系统进行测试。关键词:C#;搜索引擎;Lucene.net;IAbstractAtpresent,theInternetisdevelopingrapidly,allkindsofnetworkapplicationsareincreasingrapidly,andnetworkinformationhasexploded.Inordertoimprovetheefficiencyofproductionandtheconvenienceoflife,butitalsomakesushavetofaceanimportantproblem,inthefaceofmass
6、iveinformation,howtoquicklylocatetheinformationthatweareinterestedin.Indeed,therearemanyportalsitesandsearchengineslikeBaiduandBing,whichhelppeopletoretrieveinformationonthecurrentnetwork,butthesedonotfullymeetthedailyneedsoftheusers.Especiallyforsomelocalareanetwork,campusnetwork,enterprisesand
7、institutions,largeenterpriseparks.Theseorganizationsoftenlackaunifiedmanagementbecausetheyareinvolvedinmanydepartments,largeamountofinformation,highinformationprivacy,andoftenlackaunifiedmanagementofinformation.Sotheyoftenne
此文档下载收益归作者所有