欢迎来到天天文库
浏览记录
ID:57924492
大小:494.62 KB
页数:9页
时间:2020-04-14
《基于模糊决策的不完整数据分类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第36卷第2期淮北师范大学学报(自然科学版)Vo1.36NO.22015年6月JournalofHuaibeiNormalUniversity(NaturalScience)Jun.2015基于模糊决策的不完整数据分类算法束建华,李飞凤,方刚(1.安徽中医药大学医药信息工程学院,安徽合肥230008;2.淮南联合大学,安徽淮南232001)摘要:中医药领域不完整的数据普遍存在,而数据的不完整很大程度地降低分类模型的学习效果.大多数已有的处理不完整数据的分类算法只关注在其学习阶段处理不完整数据,而对于不完整数据出现在分类阶段则不能处理或效果不好.文章提出一种新的分类算法用于处理不完整数据的分
2、类问题.首先给出一个新的用于处理不完整数据的决策树算法,并针对传统的Boosting算法在迭代过程中使用确定性决策方法而没有充分考虑到数据集中的不完整数据,进一步提出改进的Boosting算法,在迭代过程中对每一个假设使用模糊决策方法,权重的更新机制是增加错误分类样本的权重和减少正确分类样本的权重,最终使用加权投票的方式得出最优的分类结果.最后,通过两组实验证明提出的算法策略在处理不完整数据问题时的优越性.关键词:分类算法;不完整数据;决策树;权重;模糊决策;Boosting算法中图分类号:TP399文献标识码:A文章编号:2095—0691(2015)02—0012—090引言分类作为一
3、个重要数据挖掘方法已经研究多年,已经广泛应用于各个领域].随着中医药信息化的发展,分类也被广泛应用于中医药研究,但疾病信息体现客观不完整和描述疾病的主观不确切,形成了中医病历和中医学信息的不完整性,而不完整的数据的存在总是会降低分类模型的效果.为了更直观地表达数据不完整的问题,我们假设。=(1,2,3,4),那么(?,2,3,4)为25%不完整的数据,(1,?,?,4)为50%不完整的数据.数据缺失的机制分三类:完全随机缺失(missingcompletelyatran.dom,MCAR),缺失值的缺失概率不依赖于数据集中的没有被观察到的值(缺失值),也不依赖于观察到的值(未缺失值);随机
4、缺失(missingatrandom,MAR),缺失值的缺失概率是数据集中被观察到的值的函数;不可忽略的缺失(non—ignorablemissing),缺失值的缺失概率依赖于数据集中的没有被观察到的值(缺失值).目前,已有的基于不完整数据的分类方法主要有:1)忽略不完整数据中的缺损值b],最简单的方法就是把不完整的数据集中有缺失值的属性删除使其转换成一个完整的数据集,然后针对有完整数据的属性训练建立分类器.但这种策略忽略不完整数据中潜在的有用信息,分类精度降低.如果缺失数据的比例很大,这种调整后数据集上的分类结果更有可能产生误导.2)使用统计学方法(均值法、线性回归法、最大似然法、多值填
5、充法等)填充缺损的值,多值填充是在同一填充算法下对缺损值填充多次,得到多个完整的数据集,然后根据某一融合策略计算最后的填充结果,解决了单值填充可能造成的数据偏斜问题,在统计量计算上能得到更高的精确度.3)机器学习方法(朴素贝叶斯、贝叶斯网络、聚类等)填充缺损的值.机器学习方法主要是应用已有数据挖掘算法,将填充属性视为类屙陛,将缺失样本作为测试集完成分类填充.但不完整的数据产生的原因很多,无法确定填充的值是否准确,使用不当会产生严重的数据偏斜.分类问题分为两个阶段:学习阶段和分类阶段.学习阶段是从一组训练数据建立分类模型,而分类阶段把未知数据集(测试数据)分类于预定义的类.大多数已有的算法只
6、关注在学习阶段处理不完收稿日期:2015—03—01基金项目:安徽省自然科学基金项目(1408085QF118);安徽中医药大学青年基金项目(2015qn006)作者简介:束建华(1981一),女,安徽庐江人,硕士,讲师,研究方向:智能计算、数据挖掘等.第2期束建华等:基于模糊决策的不完整数据分类算法13整的训练集而对不完整的值出现在分类阶段则无能为力.决策树分类器可以根据给定的属性值来预测数据的分类,文献[1O]给出处理不完整数据的决策树算法的综述.c4.5算法⋯是在学习阶段和分类阶段都对不完整的数据作处理的分类算法,但c4.5处理不完整数据时效率很低.为在学习阶段和分类阶段都很好地处理
7、不完整数据分类问题,本文提出一种新的决策树方法.该方法可以有效地处理不完整数据的分类问题.AdaBoost算法核心思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器联合构成一个强分类器.众所周知,AdaBoost算法具有很多优点n,能快速收敛到目标,除了迭代次数没有控制属性,能集成多个弱分类器等;但是也存在一些问题,如训练集中含噪音数据,训练样本太少等情况下,Ada—Boost算法不能得出稳定的结果.因此,本文
此文档下载收益归作者所有