基于信息熵的不确定性数据清理

基于信息熵的不确定性数据清理

ID:36619223

大小:2.33 MB

页数:57页

时间:2019-05-13

基于信息熵的不确定性数据清理_第1页
基于信息熵的不确定性数据清理_第2页
基于信息熵的不确定性数据清理_第3页
基于信息熵的不确定性数据清理_第4页
基于信息熵的不确定性数据清理_第5页
资源描述:

《基于信息熵的不确定性数据清理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、扉页:独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得云南大学或其他教育机构的学位或证明而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:辜颦日论文使用和授权说明本人完全了解云南大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交学位论文和论文电子版;允许论文被查阅或借阅;学校可以公布

2、论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵循此规定)研究生签名:』聋立址弘敛々每刘导师签名::r/::本人及导师同意将学位论文提交至清华大学“中国学术期刊(光盘版)电子杂志社”进行电子和网络出版,并编入CNKI系列数据库,传播本学位论文的全部或部分内容,同意按《中国优秀博硕学位论文全文数据库出版章程》规定享受相关权益。研究生签名:霉王室。翅易导师签名卜.二.——T一日摘要不确定性数据(Uncertaindata)是数据采集及处理技术的进步与发展的产物,近年来

3、受到学术界和工业界的广泛关注。不确定性数据产生的原因特殊,可能是采用了粗粒度的数据集合或是原始数据本身不准确,也可能是为了满足特殊的应用目的,或是在数据集成过程中、处理缺失值而产生;与此同时不确定性数据的表现形式也多种多样,它们可以是流数据、移动对象数据、关系型数据或者半结构化数据形式。基于种种原因,这些不确定性数据中往往会存在一部分异常数据,而人们希望得到的能够正常使用的不确定性数据是可靠的、没有错误的。不确定性数据的清理已经成为了一个热点问题。目前针对不确定性数据的质量管理方法以及形式差异,研究者、

4、学者已经提出了很多关于不确定性数据的数据模型,这些数据模型的核心就是可能世界模型。可能世界模型可以将不确定性数据演化为多个可能世界实例,同时可能世界实例又对应有一个概率,方便对不确定性数据质量进行管理研究。然而可能世界实例的规模远远大于不确定性数据库的规模,所以将可能世界模型作为不确定性数据的数据模型时必须运用剪枝、排序等启发式技术设计新型算法,用以提高效率,这势必将会是一个异常繁琐的过程。信息熵是信息论中用以定量描述信息的不确定性、稳定程度和信息量大小的方法。本文将不确定性数据的信息量大小定义为不确定

5、度,以信息熵为支撑理论,通过不确定性数据的概率,定量地计算不确定性数据的信息量。基于此可以有效减少可能世界实例,高效地完成不确定性数据的清理。以信息熵为支撑理论,本文的主要工作包括:·将信息熵的理论引入到不确定性数据中,计算不确定性数据的不确定度,以此作为计算不确定性数据可信区间划分标准的前提。·结合数理统计的方法,针对数值型不确定性数据,通过计算得到不确定性数据可信区间的划分标准,并给出可信区间。·清理不确定性数据库中不在可信区间内的不确定性数据数据,更新不确定性数据库,完成清理工作。基于信息熵的不确

6、定性数据清理·进行不确定性数据清理的模拟实验,通过实验验证了本文方法的高效性和有效性。关键词:不确定性数据;数据清理;信息熵;不确定度:可信区间IIAbstractWiththedevelopmentofdatacollectionandprocessing,largevolumesofuncertaindatahavebeenproducedandarousetheconcernofacademicsandindustry.Uncertaindataariseforanumberofreasons,s

7、uchascollectingdataincoarsegranularity,incorrectness,incompletenessintheoriginaldataorremovingsensitivedetailsforspecialapplications,andexistindatastream,dataofmobileobjects,relationaldatabasesandsemi—structureddata,etc.Moreover,thequalityofuncertaindata

8、isofaffectedbytheanomaliesandimpurities,fuelinganinterestinimprovingthequalityofsuchdatausinguncertaindatacleaningmethods。Manymodelshavebeenproposedinthepastyearstomanageuncertaindatabyusingprobabilisticdatabases.Aprobabil

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。