基于压缩全文自索引的分布式索引技术研究

基于压缩全文自索引的分布式索引技术研究

ID:33233068

大小:1.42 MB

页数:54页

时间:2019-02-22

基于压缩全文自索引的分布式索引技术研究_第1页
基于压缩全文自索引的分布式索引技术研究_第2页
基于压缩全文自索引的分布式索引技术研究_第3页
基于压缩全文自索引的分布式索引技术研究_第4页
基于压缩全文自索引的分布式索引技术研究_第5页
资源描述:

《基于压缩全文自索引的分布式索引技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:基于压缩全文自索引的分布式索引技术研究研究生刘亦韬专业计算机软件与理论指导教师胡维华教授完成日期2014年12月万方数据杭州电子科技大学硕士学位论文基于压缩全文自索引的分布式索引技术研究研究生:刘亦韬指导教师:胡维华教授2014年12月万方数据DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterTheResearchofDistributedIndexTechnologyBasedonSelf-IndexedCompressedFull-textCandidate:YitaoLiuS

2、upervisor:Prof.WeihuaHuDecember,2014万方数据杭州电子科技大学硕士学位论文杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:日期:年月日学位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论文

3、工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作者签名:日期:年月日指导教师签名:日期:年月万方数据杭州电子科技大学硕士学位论文摘要分布式全文检索技术是信息处理领域的核心技术之一,目前被广泛应用于竞争情报、信息检索、搜索引擎以及信息过滤等领域。对高效分布式全文索引技术的深入探讨不仅拥有重要的理论价值,同时还具有巨大的商业价值。随着互联网的日益普及,各

4、式各样的数据以更快的速度产生,数据总量成指数级增长,面对海量的数据,相关数据索引文件的大小也持续增加。传统的单机索引系统基本不能满足海量数据的索引需求,而分布式索引系统可满足上述需求,并实现海量数据的分布式索引。分布式索引系统的核心技术涵盖了分布式索引创建、索引查询、分布式索引的数据分配以及分布式索引的负载均衡等内容。本文将近几年来流行的文本处理技术——压缩全文自索引应用到分布式索引当中,并讨论该索引结构下的查询策略。本文对分布式全文索引技术研究的内容包括:(1)当前主流的分布式索引系统主要采用倒排索引结构,运行在高性能集群中的倒排索引对查询的响应时间可达到毫秒级别。然而,倒排索引

5、除了需存储自身信息之外的信息,还需要额外存储信息用于支持搜索引擎实现存储片段抽取、排序和位置信息、查询缓存等功能,从而导致存储空间的利用效率偏低。本文创新的将当前文本索引研究的热点压缩全文自索引应用到分布式索引系统当中,提出一种基于改进哈夫曼编码的小波树压缩算法,并与后缀数组将结合,实现了能适应分布式环境下的压缩全文自索引结构及对应的高效创建算法。(2)索引系统在搜索引擎中主要发挥以下两种作用:第一,根据一定的规则创建网页文档的索引,便于后续查询;第二,按照用户提出的查询命令检索索引文件,同时按一定规则对索引文件进行排序并将结果返回客户端。基于新改进的压缩全文自索引结构,提出了一种

6、分布式环境下的查询处理策略。(3)结合以上研究内容和相关研究成果,提出一种分布式全文索引系统架构,该系统有利于实现各种各样非结构化数据的分布式索引,进而实现海量非结构化数据的查询和索引性能。详细介绍了系统中索引集群、查询集群以及分布式文件系统的设计,最后测试该分布式索引系统查询处理的高效性。关键词:分布式全文索引,压缩全文自索引,小波树,后缀数组,查询处理策略I万方数据杭州电子科技大学硕士学位论文ABSTRACTDistributedfull-textindex,acoretechnologyinthefieldofinformationprocessing,hasbeenwide

7、lyusedforcompetitiveintelligence(CI),informationretrieval(IR),searchengine(SE),informationfiltering(IF)andotherfields.Adeepdiscussiononcampusdistributedfull-textindextechnologyhasbothgreattheoreticalandcommercialvalue.Withthegrowingpopu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。