面向网络文学的垂直搜索引擎的研究与实现.pdf

面向网络文学的垂直搜索引擎的研究与实现.pdf

ID:50145515

大小:3.10 MB

页数:46页

时间:2020-03-06

面向网络文学的垂直搜索引擎的研究与实现.pdf_第1页
面向网络文学的垂直搜索引擎的研究与实现.pdf_第2页
面向网络文学的垂直搜索引擎的研究与实现.pdf_第3页
面向网络文学的垂直搜索引擎的研究与实现.pdf_第4页
面向网络文学的垂直搜索引擎的研究与实现.pdf_第5页
资源描述:

《面向网络文学的垂直搜索引擎的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、索取号:、TP391痛密级:公开膽画■wm^:.、.》.•''■硕士学位论敦_i'',:::W..垂直搜索引擎的研究与实现信息科鮮工程学院计算机科学与技术2015年4月102015年6月6日.曲阜师范大学研究生学位论文独创性声明(根据学位论文类型相应地在“□”划“V”)本人郑重声明:此处所提交的博士□/硕士仑文《基于网络文学的垂直搜索引擎的研究与实现》,是本人在导师指导下,在曲阜师范大学攻读博士口/硕士学位期间独立进行研究工作所取得的成果。论文中除注明部分外不包含他人已经发表或撰写的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文

2、中以明确的方式注明。本声明的法律结果将完全由本人承担。作者签名:曰期:7^13曲阜师范大学研究生学位论文使用授权书(根据学位论文类型相应地在“□”划“V”)《基于网络文学的垂直搜索引擎的研究与实现》系本人在曲阜师范大学攻读博士□/硕士位期间,在导师指导下完成的博士□/硕士[^位论文。本论文的研究成果归曲阜师范大学所有,本论文的研究内容不得以其他单位的名义发表。本人完全了解曲阜师范大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权曲阜师范大学,可以采用影印或其他复制手段保存论文,

3、可以公开发表论文的全部或部分内容。作者签名:日期:导师签名日期:摘要摘要伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势变的越来越严峻。所以迫切需要一个更优异的搜索服务,以提高搜索效率和保护网络作品版权。搜索引擎质量的好坏,对搜索引擎的使用用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标。对页面进行重要性评估并按重要性排序是搜索引擎排序算法要深入研究的最重要的问题之一。垂直搜索引擎应运而生,它把具体专业与搜索引擎结合起

4、来,为使用者提供了更高的质量和更优质的服务。本文研究的主要内容是建立在网络文学发展的基础上,本文研究的核心技术是建立在搜索引擎发展的基础上。通过研究课题的背景和意义,并深入了解搜索引擎的发展史、垂直搜索引擎的技术现状以及搜索引擎未来的发展趋势等知识,为本课题的研究与实现奠定了良好的理论基础。本文首先讨论了垂直搜索引擎的概念和工作流程,在深入研究垂直搜索引擎原理的基础上,对于垂直搜索引擎所用到的核心技术,如网络蜘蛛、网络蜘蛛搜索策略、信息抽取技术、中文分词技术等,和垂直搜索引擎所需要的搜索引擎开源框架Nutch,进行了详细的介绍。其次,分析并研

5、究了搜索引擎领域经典的两种网页排序算法:PageRank算法和HITS算法,联系当前互联网研究现状并结合所研究的课题方向,针对传统的PageRank算法存在的主题飘逸现象、网页权值分配不合理、偏重旧网页等现象,结合网页内容之间的相似度信息、网页页面结构和网页产生的时间等提出了一种改进的页面排序算法。改进算法加入了时间衰减因子,减少了主题漂移现象的发生,提高了查询的准确率。最后,本课题结合搜索引擎开源框架Nutch和改进后的网页排序算法,设计并实现了基于网络文学为主题的垂直搜索引擎原型系统。通过和主流搜索引擎的对比以及数据测试和仿真验证了系统的

6、可行性与优越性。关键词:垂直搜索引擎,PageRank算法,Nutch,网页排序算法IAbstractAbstractWiththeexplosivegrowthofinternetinformation,themassiveamountsofdatacontinuously,theefficiencyofpeoplelookfortheliteratureinthenetworkismoreandmorelow.And,withhighspeedtransmissionanddevelopmentofliteratureontheinter

7、net,piracy,infringementandplagiarizebecomesmoreandmoreserious.Therefore,amoreexcellentsearchserviceisbadlyneeded,inordertoimprovethesearchefficiencyandprotectthenetworkliterature.Thequalityofsearchengineisofgreatsignificanceforuser,itisalsoakeymeasureofsuccessforsearchengin

8、etechnology.Itisoneofthemostimportantquestionforasearchenginesortingalgorithmthate

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。