云环境下搜索引擎系统关键技术研究

云环境下搜索引擎系统关键技术研究

ID:35040580

大小:5.12 MB

页数:73页

时间:2019-03-16

云环境下搜索引擎系统关键技术研究_第1页
云环境下搜索引擎系统关键技术研究_第2页
云环境下搜索引擎系统关键技术研究_第3页
云环境下搜索引擎系统关键技术研究_第4页
云环境下搜索引擎系统关键技术研究_第5页
资源描述:

《云环境下搜索引擎系统关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、;"''->可沪V;-苗.-f舞令可今.:-?‘:梦卖VV;,'>,薄/.’;一'..—"H靖巧?钻'HS;.4.讀聲:..-.f-r..心嘴、'1W密‘单r.'A;"‘V.對.VV.:’..;’:‘.!-'苗巧相.^w.:%v咕;;..;;,:f.'矣為V.'>之、‘\苗-I凌">..;碑'令、細vi^終K,;v'。、、?'.'..受t緣僅菱巧^'..:..-.'知.K.,;'f為?.苗.苦v.聲.?r....l..起'...-...‘讓;>.\..、.—.

2、:>>'-‘.I.r..X’.貧'.玄.购P-‘系這芭户'.一'.,奮.y;這^>芽>vV;.::.\..禾:夸?-.;-■^':\文题:?縣统键^轉‘':'.-./,;7..r-..\^招T;占....’V'....接..薪..、\;.节^讀...'或..-7.,/.、巧rd:护,TN'-;.i-W.学巧,'./■r刺.姓声V..,幾聲耳,..-专’I.学专1£;各每:剌-"醒面搬v研方-^麵T'.位类巧册t'请申‘/片'梦:,一,日一|^四军1论

3、文交?.;.咬.v弓\-,,S..::-,V.一'.码?v、..馨.仁N:..ir/<片.r常v..a’:,:、.,沪..V/皆.V,‘TheResearchonKeyTechnologiesofSearchEngineunderCloudEnvironmentThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineering

4、ByYuJiankunSupervisor:Prof.ZhangDengyinApril2016南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。一与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。研巧生签名

5、:才极日期:叫W^南京邮电大学学位论文使用授权声明本人授权南京邮电大学可保留并向国家有关部n或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可将学位论文的全部或部分内容编入有关数据库进行检索;可!^采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名^:斗脉导师签名;期:_邀宝ii曰_摘要随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。

6、然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速度、存储容量以及查准率和查全率方面很难适应现在的互联网环境。本文结合云计算相关技术,研究了搜索引擎系统中文本去重、页面索引以及网络信息采集这三个关键技术,具体工作如下:首先,为了减少存储系统中重复页面的数量,本文在传统的文本去重算法Shingling的基础上,结合LCS问题的解决方法,提出了与位置相关的改进的Shingling去重算法SWLR(ShinglingwithLocationRelationship)。提高了文本去重的查准率和查全率。通过与基于比特位的过滤算法相结合,本文

7、进一步提出了快速SWLR算法,实验结果表明,快速SWLR算法在没有降低相似性检测效果的前提下,显著提升了SWLR算法运算的性能。其次,为了提高页面索引中短语查询的效率,本文在倒排索引模型的基础上提出了基于链表结构的倒排索引模型,通过在倒排索引模型的Term节点中增加指向相邻关键词的指针,在通过关键词短语进行查询时,可以在单位时间内查找到相邻的关键词并进行匹配。实验结果表明,基于链表结构的倒排索引模型在索引构建、查询以及内存消耗方面均具有性能优势。最后,本文结合云计算环境,提出了一种基于Hadoop的网络爬虫系统。在该系统中,解析与爬行

8、两个子系统并行运行,从而充分利用计算机的I/O资源和计算资源。实验结果表明,本文提出的网络爬虫系统具有很好的系统扩展能力和负载均衡能力。关键词:搜索引擎,网络爬虫,全文索引,文本去重AbstractWiththeexpl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。