欢迎来到天天文库
浏览记录
ID:37072827
大小:2.26 MB
页数:66页
时间:2019-05-17
《基于实时实体解析的关键词查询处理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20151326硕士学位论文基于实时实体解析的关键词查询处理学位申请人:杜旭指导教师:朱亮教授学位类别:工学硕士学科专业:计算机科学与技术授予单位:河北大学答辩日期:二○一八年五月ClassifiedIndex:CODE:10075U.D.C:NO:20151326ADissertationfortheDegreeofM.EngineeringKeywordSearchBasedonReal-timeEntityResolutionCandidate:DuxuSupervi
2、sor:ProfessorZhuLiangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyUniversity:HebeiUniversityDateofOralExamination:May,2018河北大学学位论文独创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写的研究成果,也不包含为获得河
3、北大学或其他教育机构的学位或证书所使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名:ikLAli日期:夕〇rs年5月日学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。本学位论文属于1、保密□,在年月日解密后适用本授权声明。2、不保密。“”…V(请在以上
4、相应方格内打)保护知识产权声明本人为申请河北大学学位所提交的题目为《基于实时实体解析的关键词查询处理》的学位论文,研究工作,是我个人在导师(朱亮)指导并与导师合作下取得的研究成果。及取得的研宄成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的本.及人完全了解并严格遵守中华人民共和国为保护知识产权所制楚1的各项法律、行政法规以河北大学的相关规定。本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明
5、,本人愿意承担相应法律责任。声明人:姐日期:年5月3I日作者签名:权趙日期:^_年_£_月1日导师签名:日期:年6月2日摘要摘要在数据库和大数据领域的研究与应用中数据质量是重要的,脏数据处理是一个挑战,实体解析(EntityResolution,ER)是其中的关键问题之一。实体解析是指识别同一数据源或不同数据源中表示现实世界同一实体的元组(或称记录),且将其进行合并的过程。关系数据库中传统关键词查询/关键词搜索方法和技术是基于干净数据的,因此对于具有重复元组的脏数据集,查询结果可能包含重复元组,即具有不同标识的元组
6、表示现实世界的同一实体。针对脏数据集,传统Top-N查询可能失效,而传统实体解析的离线方法开销大,不能直接运用于查询处理。因此需要一种新的Top-N查询处理方法,既能够快速完成查询处理又能够实时去掉结果中的重复元组。本文给出一种基于实时实体解析的Top-N关键词查询处理方法。此方法构建索引表,将数据库中的元组词以及相关信息存入索引表;使用该索引表生成索引,并利用此索引确定一个查询的候选集;进而运用索引中的词频和文档频率等信息设计一个相似度函数;然后利用分治的思想设计一个聚类算法进行实时实体解析,最后返回没有重复元组的Top-N查询结果。实验使
7、用了三个数据集并给出了一个SIMPLE方法作为基准,用来对比和验证KEYSER方法的性能。实验结果表明KEYSER方法实体解析的耗时比SIMPLE方法低一个到五个数量级,SIMPLE方法处理脏数据集的时间开销不能满足实时性的要求。此外,通过对比传统查询方法的准确度,实验结果验证了传统查询方法针对脏数据是失效的,同时还验证了把Top-N关键词查询和实体解析结合在一起的KEYSER方法,对于脏和干净的数据集都具有很高的实时性与有效性。关键词实体解析关系数据库相似度函数TOP-N关键词查询数据质量IAbstractAbstractDataquali
8、tyisofimportanceintheresearchesandapplicationsinthefieldsofdatabaseandbigdata,inwh
此文档下载收益归作者所有