粗糙集理论在知识发现数据预处理中的研究与应用

粗糙集理论在知识发现数据预处理中的研究与应用

ID:33877905

大小:2.99 MB

页数:60页

时间:2019-02-28

粗糙集理论在知识发现数据预处理中的研究与应用_第1页
粗糙集理论在知识发现数据预处理中的研究与应用_第2页
粗糙集理论在知识发现数据预处理中的研究与应用_第3页
粗糙集理论在知识发现数据预处理中的研究与应用_第4页
粗糙集理论在知识发现数据预处理中的研究与应用_第5页
资源描述:

《粗糙集理论在知识发现数据预处理中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号学校代码10497UDC学位论文题目粗糙集理论在知识发现数据预处理中的研究与应用英文ResearchandApplicationofRoughSetonData题目PreProcessingofKnowledgeDiscovery研究生姓名陈才杰姓名刘传文职称副教授学位博士指导教师单位名称计算机科学与技术学院邮编430063申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014年04月论文答辩日期2014年05月学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年5月万方数据独创性声明本人声明,所呈交的论文是

2、我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印

3、、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据武汉理工大学硕士学位论文摘要在对实际应用领域进行知识发现的过程中,由于数据采集能力有限和数据存储介质损坏等未知情况,所获取用于挖掘的数据系统往往是不完备的,即存在缺失数据。因为这种数据的不完备性给用来进行挖掘的数据模型引入了噪声和不确定性,从而使得挖掘出的信息会出现矛盾和混乱的问题,这会严重影响知识发现中的数据挖掘过程和结

4、果。粗糙集理论是由波兰科学家Z.Pawlak创立的一种处理数据模糊性和不确定性的数学理论工具,它在处理信息数据的过程中无需任何先验的领域专家知识,具有一定的客观性和通用性。因此,本文以粗糙集理论作为理论工具,研究它在数据预处理过程中解决数据缺失值问题中的应用,并最终提出了一个粗糙集理论和关联规则中频繁项集的联合处理模型。首先,论文介绍了目前不完备信息系统中填补缺失值的主要方法,并分析了各自的优缺点,尤其是在国内较受关注的基于粗糙集理论的ROUSTIDA算法和国外的ClosestFit算法。在此基础上提出了一种融合了粗糙集量化容差和属性约

5、简知识的不完备信息系统处理算法RSF,该算法在描述缺失对象和备选填补对象之间的相似精度和算法运算复杂度上有明显改善。通过实验验证,RSF方法与ROUSTIDA算法相比具有更高的填补精度,比ClosestFit算法拥有更低的运算复杂度。其次,基于以往处理不完备信息系统算法中都忽略的备选填补对象在整个信息系统中的重要性问题。本文提出了一种用关联规则中频繁项集知识来对数据缺失值进行填补的方法,该方法简便且能提高缺失值的填补精度。由于该方法中无法完成所有缺失值填补的缺点,文中最后提出将其与RSF算法联合的处理模型FI-RSF,在该模型中先利用频

6、繁项集填补法,对余下的未能处理的缺失值再使用RSF算法继续填补。最后,通过在UCI机器学习数据库选取数据集进行实验,验证了FI-RSF方法较RSF方法在缺失值预测精度上有所提高,且随着产生频繁项集的预设支持度降低,预测精度会提高。关键词:知识发现;不完备信息系统;粗糙集;数据补齐;频繁项集I万方数据武汉理工大学硕士学位论文AbstractIntheprocessofknowledgediscoveryinactualapplicationfields,duetolimiteddatacollectioncapacity,datastor

7、agemediumdamageorotherunknownsituations,thedataacquiredforminingsystemsareoftenincomplete,i.e.thereisamissingdata.Becauseofsuchincompletnessofdata,thenoiseanduncertaintyisintroducedintodatamodelusedfordatamining,soitmakestheresultofdataminingencountersproblemsofconflicta

8、ndchaos.Thiswillseriouslyaffecttheprocessorresultofdataminingandknowledgediscovery.Theroughsetstheory,a

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。