欢迎来到天天文库
浏览记录
ID:34139178
大小:5.12 MB
页数:82页
时间:2019-03-03
《基于bitmap的倒排索引结构的查询处理研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据中图分类号:UDC:学校代码:10055密级:公开高蕊犬港硕士学位论文基于Bitmap的倒排索引结构的查询处理研究Bitmapinvertedindexqueryprocessing学科专业盐篡扭廛旦堇苤答辩委员会主席型堡塾援研究方向羞堑皇坌查蕉盐篡评阅人自星41堂红堂塾援南开大学研究生院二。一四年五月万方数据南开大学学位论文使用授权书根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。本人完全了解南开大学有关研究生学位论
2、文收藏和利用的管理规定。南开大学拥有在《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文(包括纸质印刷本及电子版),学校可以采用影印、缩印或其他复制手段保存研究生学位论文,并编入《南开大学博硕士学位论文全文数据库》;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文摘以及论文全文浏览、下载等免费信息服务:(3)根据教育部有关规定,南开大学向教育部指定单位提交公开的学位论文;(4)学位论文作者授权学校向中国科技信
3、息研究所及其万方数据电子出版社和中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。论文电子版提交至校图书馆网站:.http://202.113.20.163:8001/paper/index.isp。本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同
4、造成不良后果由本人自负。本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。作者暨授权人签字:南开大学研究生学位论文作者信息20年月日论文题目基于Bitmap的倒排索引结构的查询处理研究姓名王克宾学号2120110398答辩日期2014年5月15日论文类别博士口学历硕士■硕士专业学位口同等学力硕士口院/系/所计算机与控制工程学院专业计算机应用技术联系电话15822943071EmailwanRkebinl23@Rmail.com通信地址(邮编):天津市南开大学伯苓楼东区301并行与分布式实验室
5、(300071)备注:是否批准为非公开论文否注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写(一式两份)签字后交校图书馆,非公开学位论文须附《南开大学研究生申请非公开学位论文审批表》。万方数据南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性
6、声明的法律责任由本人承担。学位论文作者签名:年月日非公开学位论文标注说明(本页表中填写内容须打印)根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本说明为空白。论文题目申请密级口限制(≤2年)口秘密(≤10年)口机密(≤20年)保密期限20年月El至20年月日审批表编号批准日期20年月日南开大学学位评定委员会办公室盖章(有效)注:限制★2年(可少于2年):秘密★10年(可少于10年):机密★20年(可少于20年)万方数据摘要近年
7、来,随着互联网的高速发展,搜索引擎系统得到了广泛的研究与应用。目前主流的搜索引擎系统均采用倒排索引结构来组织索引,该结构中每一个词项对应一条倒排索引,它将含有该词项的所有网页文档组成一个升序列表(InvertedList)的形式。本文在倒排索引结构的基础上提出一种改进的索引结构——基于Bitmap的倒排索引结构,并设计了对该索引结构的查询处理算法。本文的主要内容包括:1.设计了两种基于Bitmap的倒排索引结构,全局Bitmap和局部Bitmap索引结构,其中全局Bitmap的索引结构中将较长的升序列表用一个
8、Bitmap列表代替,而局部Bitmap的索引结构中,升序列表的某一段或某些段被用作Bitmap表示,使得列表中部分是升序列表形式,部分为Bitmap形式。2.对基于Bitmap的索引结构,提出了相应的查询处理算法。对全局Bitmap索引结构进行处理时,阈值越小,查询中Bitmap列表平均数量越多,查询处理的效率越高。不管是对普通列表求交还是对压缩后的列表进行求交,相比于升序列表的求交,基于Bitm
此文档下载收益归作者所有