代价敏感学习中属性约简与决策树分类若干关键问题研究

代价敏感学习中属性约简与决策树分类若干关键问题研究

ID:32965595

大小:9.84 MB

页数:108页

时间:2019-02-18

代价敏感学习中属性约简与决策树分类若干关键问题研究_第1页
代价敏感学习中属性约简与决策树分类若干关键问题研究_第2页
代价敏感学习中属性约简与决策树分类若干关键问题研究_第3页
代价敏感学习中属性约简与决策树分类若干关键问题研究_第4页
代价敏感学习中属性约简与决策树分类若干关键问题研究_第5页
资源描述:

《代价敏感学习中属性约简与决策树分类若干关键问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10402分类号:学号:2011062001密级:翻崩钎霜大学工学硕士学位论文代价敏感学习中属性约简与决策树分类若干关键问题研究学位申请人:徐子龙指导教师:闵帆副教授学位类别:工学硕士学科专业:计算机应用技术授予单位:闽南师范大学答辩日期:二。一四年六月CODE:10402U.D.C.:ADissertationfortheNO.:2011062001ClassifiedIndex:MasterDegreeofEngineeringResearchonAttributeReductionand

2、DecisionTreeinCost-sensitiveLearningCandidate:ZilongXuSupervisor:Prof.FanMinSpecialty:ComputerApplicationTechnologyAcademicDegreeAppliedfor:MasterofEngineeringUniversity:MinnanNormalUniversityDateofOralExamination:June,2014闽南师范大学学位论文原创性声明本人郑重声明:所呈交的论文是本人

3、在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权闽南师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫

4、描等复制手段保存和汇编本学位论文。‘本学位论文属于1、保密口,在年解密后适用本授权书。2、不保密彤(请在以上相应方框内打“4”)作者签名:导师签名:日期:妇z垒年』月』二日日期:迎f蝤—红戌L日摘要数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性信息的过程。数据挖掘又译为资料探勘、数据采矿,是数据库知识发现中的一个步骤。数据挖掘与统计学、机器学习与数据库等理论与技术交叉渗透,有着深刻的研究意义和广泛的研究价值。代价是数据的重要方面。实际应用中常见的代价有测试代价、误分类代价、计算代价和延

5、迟代价等。测试属性需要付出一定代价,我们称之为测试代价。这些代价包括金钱、时间和其它各种资源。当我们对实例做出错误分类的时候,同样也需要付出代价。例如,当医院诊断病人时,如果把有病诊断成健康,这种情况下可能都会付出代价,我们称之为误分类代价。等待而没有做有意义的事情所浪费的时间,我们称为延迟代价。正因为代价在现实中的重要意义,代价敏感学习正在成为数据挖掘中的热点课题。粗糙集理论是数据挖掘的一个重要工具,它在处理不确定数据和不完备信息系统方面具有很大的优势。代价是数据的重要方面,衡量了数据的外部特征。决策

6、粗糙集理论所研究的代价主要是误分类代价。数据的获得需要付出测试代价,因此在粗糙集理论模型中考虑测试代价是现实意义的。这就需要一个能够考虑测试代价和误分类代价两种代价的代价敏感粗糙集模型。建立代价敏感粗糙集模型,并基于此模型研发高性能算法,可以为实际应用中的问题提供一套低代价、低风险的数据挖掘解决方案。在最近的代价敏感粗糙集研究中,已有研究者提出回溯法求解代价敏感粗糙集的最优约简。回溯法是穷举法的一种,它能够找到最优解。但在大数据集上,回溯法无法在可以容忍的时间内给出结果。因此,有学者提出了启发式算法,主

7、要有信息熵启发式算法和遗传算法。但这些算法的效果并不理想,所以本文就提出基于蚁群优化原理和模拟退火原理的算法来解决代价敏感粗糙集中的属性约简或属性选择问题。决策树是数据挖掘和机器学习中一类高效的分类方法。由于代价的重要性,代价敏感决策树的研究成为热点。目前,已有的相关算法处理的都是符号型数据的分类问题。而现实生活中,存在大量的数值型数据,因此,本文基于C4.5算法开发了一套处理数T闽南师范大学工学硕士学位论文值型数据代价敏感分类问题的决策树算法。本文内容主要包含代价敏感粗糙集的属性约简和代价敏感决策树相

8、关问题的研究。第一部分详细研究了基于代价敏感粗糙集理论的属性约简问题。首先,我们提出了一个基于蚁群优化的算法和一个基于模拟退火原理的算法来解决最小测试代价属性约简问题。实验结果表明,我们算法的效果明显优于已有的启发式算法。其次,我们开发了一个基于模拟退火原理的算法来解决最小代价属性选择问题。这个最小代价属性选择问题是考虑两类代价的属性选择问题。这两类代价是测试代价和误分类代价。实验结果表明,在大多数情况下,新算法的效果优于已有的算法,但还有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。