欢迎来到天天文库
浏览记录
ID:36689747
大小:7.22 MB
页数:59页
时间:2019-05-13
《基于Hadoop框架的电力业务深度搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:中国科学院大学UniversityofChineseAcademyofSciences硕士学位论文指导教师:2013年03月By—XuMingZiADissertationSubmittedtoGraduateUniversityofChineseAcademyofSciencesInpartialfulfillmentoftherequirementForthedegreeofMasterofComputerScienceandTechnologyShenyangInstituteofComput
2、ingTechnology,ChineseAcademyofSciencesMarch,2013独创性声明本人郑重声明:所提交的学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的研究成果。尽我所知,文中除特别标注和致谓j-的地方外,学位论文中不包含其他人或集体已经发表或撰写过的研究成果,也不包含为获得中国科学院大学或其它教育机构的学位或证书所使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。签名:猃蛆壬日期:墨!丝:堕:!墨关
3、于学位论文使用授权的说明本人完全了解中国科学院大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以公布学位论文的全部或部分内容。(涉密的学位论文在解密后应遵守此规定)签名:签鳗歪导师签名:翌塾垄垒壁:日期:2。当立12摘要在互联网信息急剧增长的今天,搜索引擎已经成为人们从互联网上检索信息的重要工具。但是,随着行业细化不断深入,不同专业领域的搜索需求千差万别,
4、通用的搜索引擎很难满足所有领域的搜索需求,因此一种在传统搜索引擎上成长的新的搜索工具应运而生——主题搜索引擎。相比较通用搜索引擎来说,主题搜索引擎对行业信息具有更好的覆盖率和更高的准确性,能够完善的覆盖本专业的相关信息。同时,海量的数据信息也使得分布式计算成为必然,虽然造成系统更大的开销和设计的复杂性,但是它带来的高效信息采集和检索效率也是不容置疑的。其中,Hadoop框架是目前比较流行的一个分布式计算框架。本文结合现有的主题搜索引擎技术,对主题搜索引擎技术做了进一步的深入研究,设计并实现了一个基于Had
5、oop框架的面向电力行业的主题搜索引擎。本系统主要由抓取模块、索引模块和检索模块构成。抓取模块即主题爬虫的实现部分,主要对传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算;又针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略。索引模块对Lucene全文检索系统中索引模块进行了改进,提出了一种面向电网领域的基于扩展词典的混合索引技术。同时,对索引性能从索引压缩和内存缓冲两个方面进行了优化,并最终在Lucene上进行
6、了实现。最后,主要阐述了检索模块中设计基于Lucene的查询器的关键技术。【关键词】Hadoop主题搜索引擎空问向量模型Lucene基y-Hadoop框架的电力业务深度搜索引擎的设计与实现ABSTRACTNow,becauseoftherapidgrowthinintemetinformation,searchenginehasbecomeanimportanttoolforpeopletoretrieveinformationfromtheIntemet.However,withthedeepening
7、ofindustryrefine,searchneedsvarywidelyfordifferentareasofexpertise,andgeneral-purposesearchenginesaredifficulttomeetthedemandforallareasofthesearch,andthenthenewgrowthonatraditionalsearchenginesearchtoolcameintobeing—topicsearchengine.Comparedwiththegener
8、alsearchengines,topicsearchenginehasbettercoverageandhigheraccuracyonspecialindustryinformation.Atthesametime,afloodofdataalsomakesdistributedcomputingbecomeinevitable,althoughthecauseofgreateroverheadandcomplexityo
此文档下载收益归作者所有