基于实时实体解析的关键词查询处理

基于实时实体解析的关键词查询处理

ID:37072827

大小:2.26 MB

页数:66页

时间:2019-05-17

基于实时实体解析的关键词查询处理_第1页
基于实时实体解析的关键词查询处理_第2页
基于实时实体解析的关键词查询处理_第3页
基于实时实体解析的关键词查询处理_第4页
基于实时实体解析的关键词查询处理_第5页
资源描述:

《基于实时实体解析的关键词查询处理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20151326硕士学位论文基于实时实体解析的关键词查询处理学位申请人:杜旭指导教师:朱亮教授学位类别:工学硕士学科专业:计算机科学与技术授予单位:河北大学答辩日期:二○一八年五月ClassifiedIndex:CODE:10075U.D.C:NO:20151326ADissertationfortheDegreeofM.EngineeringKeywordSearchBasedonReal-timeEntityResolutionCandidate:DuxuSupervi

2、sor:ProfessorZhuLiangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyUniversity:HebeiUniversityDateofOralExamination:May,2018河北大学学位论文独创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写的研究成果,也不包含为获得河

3、北大学或其他教育机构的学位或证书所使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名:ikLAli日期:夕〇rs年5月日学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。本学位论文属于1、保密□,在年月日解密后适用本授权声明。2、不保密。“”…V(请在以上

4、相应方格内打)保护知识产权声明本人为申请河北大学学位所提交的题目为《基于实时实体解析的关键词查询处理》的学位论文,研究工作,是我个人在导师(朱亮)指导并与导师合作下取得的研究成果。及取得的研宄成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的本.及人完全了解并严格遵守中华人民共和国为保护知识产权所制楚1的各项法律、行政法规以河北大学的相关规定。本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明

5、,本人愿意承担相应法律责任。声明人:姐日期:年5月3I日作者签名:权趙日期:^_年_£_月1日导师签名:日期:年6月2日摘要摘要在数据库和大数据领域的研究与应用中数据质量是重要的,脏数据处理是一个挑战,实体解析(EntityResolution,ER)是其中的关键问题之一。实体解析是指识别同一数据源或不同数据源中表示现实世界同一实体的元组(或称记录),且将其进行合并的过程。关系数据库中传统关键词查询/关键词搜索方法和技术是基于干净数据的,因此对于具有重复元组的脏数据集,查询结果可能包含重复元组,即具有不同标识的元组

6、表示现实世界的同一实体。针对脏数据集,传统Top-N查询可能失效,而传统实体解析的离线方法开销大,不能直接运用于查询处理。因此需要一种新的Top-N查询处理方法,既能够快速完成查询处理又能够实时去掉结果中的重复元组。本文给出一种基于实时实体解析的Top-N关键词查询处理方法。此方法构建索引表,将数据库中的元组词以及相关信息存入索引表;使用该索引表生成索引,并利用此索引确定一个查询的候选集;进而运用索引中的词频和文档频率等信息设计一个相似度函数;然后利用分治的思想设计一个聚类算法进行实时实体解析,最后返回没有重复元组的Top-N查询结果。实验使

7、用了三个数据集并给出了一个SIMPLE方法作为基准,用来对比和验证KEYSER方法的性能。实验结果表明KEYSER方法实体解析的耗时比SIMPLE方法低一个到五个数量级,SIMPLE方法处理脏数据集的时间开销不能满足实时性的要求。此外,通过对比传统查询方法的准确度,实验结果验证了传统查询方法针对脏数据是失效的,同时还验证了把Top-N关键词查询和实体解析结合在一起的KEYSER方法,对于脏和干净的数据集都具有很高的实时性与有效性。关键词实体解析关系数据库相似度函数TOP-N关键词查询数据质量IAbstractAbstractDataquali

8、tyisofimportanceintheresearchesandapplicationsinthefieldsofdatabaseandbigdata,inwh

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。