欢迎来到天天文库
浏览记录
ID:34738076
大小:2.13 MB
页数:71页
时间:2019-03-10
《面向主题搜索引擎的若干关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、面向主题搜索引擎的若干关键技术的研究Forseveralkeytechnicaltopicsofsearchengineresearch研究生:董徳鸣校内导师:赵德平教授校外导师:陆宜梅副教授学科领域:计算机技术二〇一五年十二月分类号:学校代码:10153UDC:密级:公开硕士学位论文面向主题搜索引擎的若干关键技术的研究作者姓名:董徳鸣入学年份:2013年9月指导教师:赵德平教授学科专业:计算机技术校外导师:陆宜梅副教授申请学位:工程硕士所在单位:信息与控制工程学院论文提交日期:2015年11月论文答辩日期:2015年12月学位授予日期:2016年1
2、月答辩委员会主席:王安娜答辩委员会组成:王安娜乔枫沈滢刘美菊郭彤颖论文评阅人:钟辉王鸣顺声明本人声明,所呈交的学位论文是在导师的指导下独立完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我共同工作过的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:学位论文版权使用授权书本学位论文作者和指导教师完全了解沈阳建筑大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权
3、沈阳建筑大学(或其授权机构)可以将学位论文的全部或部分内容编入有关数据库并通过网络提供检索、浏览。(如作者和导师同意论文交流,请在下方签名;否则视为不同意。)作者和导师同意网上交流的时间为作者获得学位后:不限□半年□一年□一年半□两年□作者签名:导师签名:日期:日期:硕士研究生学位论文摘要I摘要现在的通用搜索引擎对信息采集方面由于网络上的信息量越来越多,想要找到更加详尽、精准的主题信息成为越来越困难的技术。随着面向主题搜索引擎的面世,使得这类情况有了良好的方法解决。面向主题搜索引擎在网络蜘蛛不断的检索时会不时的统计出正在检索的页面内容与所需题目的匹配
4、值,用这个值来判断页面的题目匹配值,所以面向主题搜索引擎能够完成的规避掉很多与题目不匹配的噪声结果,只收集网络内和指定的主题所匹配的相关网页内容。综上,面向主题搜索引擎的速率、精准率和反馈率都明显优于通用的搜索引擎。由于检索出的信息数量大幅优化,面向主题搜索引擎的相关维护需求也随之减少,完全优于通用搜索引擎的系统的相关维护需求。此篇文章会先陈述面向主题检索程序的科研价值,之后会讲解通篇搜索Lucene架构下的面向主题检索程序的三个关键的重要技术:索引技术;搜索技术;分词技术。我们用面向主题搜索引擎与一般的搜索引擎的技术相互对比,以此来更加深入的探讨了
5、面向主题搜索引擎所相关的若干关键的技术。重点研究角度参考如下三点:(1)探讨了通用搜索引擎运用的HITS算法策略,容易造成通道不够及主题漂移的现象,所以要优化此算法,可以达到规避主题产生相关漂移的问题,采用了对超链接的预判权重值优化值,达到并提高了对通道链接识别的精准性。(2)通用引擎在主题匹配度的识别策略中采用了向量空间的模型计算法,在判别时会提前认为文档内各个词条是彼此独立的,这当然和真实情况不符合,使之不能精准识别与需要主题的匹配度。此篇文章对此计算方法进行了相应优化使得文中每个相关的词条,根据其相关性授予不同的权重值,之后在主题匹配度识别的计
6、算方法中考虑此权重使得计算方法得到精准的优化。(3)此篇文章设想了一种全新的结果去重计策并经过很多实验数据,对比数据可知新的计算方法在结果上取得了更加适合的优化结果。采用Java+Lucene的开放框架,优化后的计算方法来构建,得到了可在Tomcat服务器上执行的面向主题搜索引擎的系统。最后,展示了有关的运行,证明优化的计算方法有更优秀的效率,根据最终的数据结果表明,该优化计算方法具有适用能力以及应用能力。关键词:面向主题搜索引擎;主题匹配度;搜索策略;LuceneII摘要硕士研究生学位论文硕士研究生学位论文AbsractIIIAbstractWit
7、hincreasinginformationontheWeb,gettingmoreprecise,detailed,in-depthinformationhasbeenflintychallengesofgeneralsearchengineoninformationacquisition.Differentfromthegeneralsearchengineverticalsearchenginenetworkrobotsneedtocalculatethetopicinterrelatedonthecurrentwebpageconstantl
8、ywhilecrawling,andevaluatethetopicinterrelatedofwebpag
此文档下载收益归作者所有