欢迎来到天天文库
浏览记录
ID:34050974
大小:5.17 MB
页数:62页
时间:2019-03-03
《基于网页链接和网页内容叠加的垂直搜索策略与算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类编号:密级:单位代码:—100—65学号:1210090007天滓I币苊大学研究生学位论文论文题目:基于网页链接和网页内容叠加的垂直搜索策略与算法研究学生姓名:直嫒申请学位级别:堂查型亟±盟塞生申请专业名称:教直技丕堂研究方向:数据揎握指导教师姓名:韭挂芸专业技术职称:塾拯提交论文日期:2Q15生§目天津师范大学硕士研究生论文原创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不
2、包含为获得苤壅竖蕉盘堂或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。论文作者签名:日期:幻灯年乡月≥日研究生学位论文使用授权说明(必须装订在提交学校图书馆的印刷本)本人完全了解天津师范大学关于收集、保存、使用研究生学位论文的规定,即:·按照学校要求向图书馆提交学位论文的印刷本和电子版本;·图书馆有权保存学位论文的印刷本和电子版,并通过校园网向本校读者提供全文与阅览服务。·图书馆可以采用数字化或其它手段保存论文;·因某种特殊原因需要
3、延迟发布学位论文,按学位论文保密规定处理,保密论文在解密后遵守此规定。论文作者躲徽新躲孑融谚日期:必时年厶月z日天津师范大学硕士研究生论文摘要随着科技和网络的快速发展,人们已经进入了大数据时代,互联网上的信息资源已经多到人们无法想象的数量,不仅如此,互联网上每天还在产生着大量的信息资源。网络上充斥着大量的资源,比如多媒体资源、文本资源等等。在这些资源中,文本资源是人们日常检索的主要资源。网络上文本资源的搜索与使用已经成为了人们生活中必不可少的一部分。当人们使用通用搜索引擎在检索信息资源时,会发现有很多不相
4、关的页面产生,这就需要人们自己去筛选所需要的信息,浪费了人们的时间,同时也造成了人们的困扰。人们如何在如此大量的信息资源中快速、深入、准确的找到自己所需要的信息资源呢,这时就需要垂直搜索引擎来满足人们的需求了。垂直搜索引擎是针对某一个行业的专业搜索引擎,具有深入性、准确性和专业性等特点。本论文重点研究了基于网页链接和基于网页内容的搜索策略,并深入分析和总结了两种搜索策略的优缺点。同时对基于网页链接的PageRank算法和基于网页内容的Shark-Search算法各自的缺点分别提出了相应的改进措施。但是,基
5、于网页链接的搜索策略偏重于网页之间的链接结构,而忽视了页面内容的相关性;基于网页内容的搜索策略又过于偏重页面内容的相关性,而忽视了页面之间的链接关系,因此,为了既要发挥两种算法各自的优点,又要有效避免两种算法各自的缺点,本文提出了基于网页链接和基于网页内容相叠加的搜索策略。本论文在研究和应用Lucene搜索引擎框架的基础上,对Lucene搜索引擎框架的设计原理、特色以及评分系统进行全面深入的分析。Nutch搜索引擎是一个以Lucene框架为核心建立的,完整实现的Web搜索引擎。由于Nutch搜索引擎是完全
6、开放的,所以本文在Nutch搜索引擎的基础上进行了二次开发。本文以此为实验平台,对本文所提出的算法进行了实验验证。最后实验结果表明,搜索算法的性能良好,能够为用户提供深入、准确的检索结果。关键词:垂直搜索;搜索策略;Nutch;网页链接;内容叠加天津师范大学硕士研究生论文AbstractWiththerapiddevelopmentofscienceandtechnology,peoplehaveenteredtheeraofbigdata.TheIntemethasalotofinformationre
7、soⅦ℃es.Notonlytk也theIntemetalsohasahrgeamountofkdbrmationl'eSol且-'ceseveryday.Filledwithalotofresourcesonthenetwork,suchasmultimedia,textresourcesandSOon.InthesereSOUl'Ces,thetextresourcesarethemainresourcesofretrievaLSearchthetextreSOUrcesonthenetworkhas
8、becomeanindispensablepartoflife.Whenpeopleusethegenericsearchengine,willfindthatthereareabtofumelatedpages.Howdopeopleinsuchalar窘enumberofinformationresourcesquickly,in-depthandaccuratetofindwhattheyneedinformationr
此文档下载收益归作者所有