基于压缩混合模型的分布式索引技术研究

基于压缩混合模型的分布式索引技术研究

ID:35062260

大小:5.83 MB

页数:70页

时间:2019-03-17

基于压缩混合模型的分布式索引技术研究_第1页
基于压缩混合模型的分布式索引技术研究_第2页
基于压缩混合模型的分布式索引技术研究_第3页
基于压缩混合模型的分布式索引技术研究_第4页
基于压缩混合模型的分布式索引技术研究_第5页
资源描述:

《基于压缩混合模型的分布式索引技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:基于压缩混合模型的分布式索引技术研究研究生吴良专业计算机技术指导教师吴卿教授完成日期2016年3月杭州电子科技大学硕士学位论文基于压缩混合模型的分布式索引技术研究研究生:吴良指导教师:吴卿教授2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterTheResearchondistributedindextechnologybasedoncompressedmixedmodelCandidate:WuLiangSuperv

2、isor:Prof.WuQingMarch,2016杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人蔚重声明:所呈交的学位论义,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己经注明引角的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中臥明确方式标明。一申请学位论文与资料若有不实么处。,本人承担切相关责任论文作者签名;曰期:《年曰^月技学位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用

3、学位论文的规定,即;研究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许蒼阅和借阅论文;学校可公布论文的全、部或部分内容,可从允许采用影印缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作者签名:托曰期:典年3月曰指导教师鉴名;日期:年月日杭州电子科技大学硕士学位论文摘要倒排索引是分布式检索系统的关键技术,能有效支持结果集排序,由于所有词项经原始文本集分词

4、而得,所以对短语、句子检索适应性很差。同时传统单点索引模型难以承载高并发检索请求,严重影响检索效率。借助于并行运算模型,如何设计一种适应性更广、并行检索性能更优的分布式检索系统,具有重要的研究价值。围绕上述问题,本文研究内容如下:(1)针对倒排表适应性较差的缺点,本文提出一种压缩混合索引模型。结合后缀数组支持句子检索、模糊短语适应性且支持不同环境的查询方式等优点,通过哈希算法,将后缀数组与倒排表有效关联。为了降低索引存储,提出压缩算法减少后缀数组空间存储,同时设计剪枝策略减少倒排表关联数量。经实验对比,在同等前提基础下,压缩混合索

5、引模型能有效适应不同类型检索方式,其检索查准率明显高于倒排模型。(2)以提出的压缩混合模型为基础,设计分布式索引系统。系统目标支撑高并发检索请求压力的同时,能保持较高的查准率与检索速度。系统主要包含缓存模块、索引模块、检索模块以及文件系统四个部分,任意两个模块之间实现低耦合,同时又互相作为支撑。索引构建借助并行模型,将原始文本集进行有效聚类,然后对每个类别并行构建混合索引。检索系统时择取最近相似类别,能有效缩小范围、减少I/O代价且提高查准率。实验证明,系统各模块之间能有效协调工作,其适应性、检索效率都优于倒排系统。本文提出的基于

6、压缩混合模型的分布式索引系统,能提供较高的短语适应性和检索效率。关键词:混合索引,压缩后缀数组,检索系统,剪枝策略,查准率I杭州电子科技大学硕士学位论文ABSTRACTReverseindexisakeytechnologyofdistributedretrievalsystemwhichcaneffectivelysupportresultsetsorting;however,itpoorlyadaptstoretrievingphrasesandsentencesbecausealllexicalitemsareobtaine

7、dfromoriginaltextsetsegmentation.Besides,traditionalsingleindexmodelscanhardlybearhighconcurrentretrievalandtheretrievalefficiencyisthusseriouslyaffected.Basedonparallelcomputationmodel,howtodesignadistributedretrievalsystemwithextensiveadaptationandsuperiorparallelre

8、trievalperformancehasimportantresearchvalue.Aroundtheaboveproblems,theresearchcontentisasfollows.(1)Specifictopooradaptation

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。