欢迎来到天天文库
浏览记录
ID:42294017
大小:1.34 MB
页数:65页
时间:2019-09-12
《数学建模的数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第四章分类分类(Classification)就是通过学习得到一个目标函数(称为模型函数)f,然后把新的对象x通过f映射到一个预先定义的类别号y。1.分类的定义:一、相关概念2.数据挖掘中分类任务的一般模型数据集构造模型函数f模型是否合理不合理新对象合理模型确定输出类别训练样本集检验样本集输入模型检验2.分类性能的度量考虑二分类问题即类标号只有2个,可设为1和0.定义:f11:实际为第一类,按模型也判别为第一类;f00:实际为第二类,按模型也判别为第二类;f10:实际为第一类,按模型也判别为第二类;f01:实际为第二类,按模型也判别为第一类;则分类性能可以用准确
2、率或错误率来度量准确率=(f11+f00)/(f11+f00+f10+f01)准确率=1-准确率3.常见的分类方法常见的分类有:决策树、神经网络、支持向量机、遗传算法、粗糙集、贝叶斯等。三、基于决策树的分类方法例1.下表是用于构造分类模型的数据集,包括14个样本和5个属性:Outlook、Temperature、Humidity、Windy和Play,其中前4个属性是天气,最后一个属性是根据前4个属性的情况说明这样的天气状况是否适合比赛。各属性取值如下:Outlook:sunny(s),overcast(o),rain(r);Temperature:hot(h)
3、,mild(m),cool(c);Humidity:high(h),normal(n);Windy:false,truePlay:Yes(y),no(n)训练样本集如下OutlookTempHumiWindyPlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN决策树是类似如下的一棵树OutlooksunnyrainovercastPlay=noPlay=yeswindyfalsePlay=yesTruePlay=no给定一个新的天气象:“rain,hot,high,t
4、rue”,则判别其类别决策树的构造:分裂属性的选择四、基于信息增益的特征选择策略1.相关概念设信息源X的取值为A=(a1,a2,…,an),ai出现的概率为pi,称I(ai)=log(1/pi)=-logpi为ai的信息量;称为X的信息熵。决策树分类方法利用信息量增加(信息增益)作为特征选择的一种指标。信息增益衡量每个属性对分裂后的数据子集的信息量的贡献。假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,称为集合T的信息熵。如果m=1,即T的样本都属于一个类,则I(T)=0,达到最小值,何时I(T)达到最大?假设属性A把集合T
5、划分为v个子集{T1,T2,..,Tv},其中Ti所包含的样本数为ni,那么划分后的熵就是:分裂后的信息增益定义为基于信息理论的特征选择方法就是逐一计算每种分裂的信息增益,选择信息增益最大的属性作为分裂属性。下面以前面给出的数据集为例,利用信息增益方法构造决策树。第一步:计算训练样本集T的信息量。分类属性Play有两个类,其样本数统计如下:因此T的信息量为:第二步:计算每个属性的信息增益,对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:样本集TPlay=yesPlay=no样本数95Outlook的信息熵为:Outlook
6、Play=yesPlay=nototalSunny(T1)134Overcast(T2)505Rain(T3)32514Outlook的信息增益为:同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)31414Temperature的信息熵为:Temperature的信息增益为:对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNorma
7、l(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其信息增益值分别为0.1653和0.0481.第三步:比较四个属性的信息增益,按大小顺序排列为Gain(Outlook)>Gain(Humidity)>Gain(Windy)>Gain(Temperature)因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast第二层结点的选择与首结点类似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outloo
8、k属性值为sunny的样
此文档下载收益归作者所有