资源描述:
《基于计算动词决策树的股市数据分析8》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、传统决策树的动词化答辩人:周悦颖学号:22220051204059指导老师:杨涛决策树小组的分工情况:周悦颖:传统决策树的动词化张娓娓:计算动词决策树的设计刘夏莹:基于计算动词决策树的股票数据分析决策树数据挖掘技术是目前最有影响和使用最多的一种数据挖掘技术。决策树分析法是一种用树形图来描述各分类情况下对各自然状态出现概率的计算,其决策是以历史记录为标准来推断的。inputoutput判定树分类算法训练集决策树----------------------------------------------------------------------
2、-------------------------------------------------------根----------------------------------------------------深度0--------------------------------------------------------C(1),F(1),D(1)●●-----------------C(----------------------------------------i),F(i),D(i)●●--------------------
3、--------------------------------------C(n),F(n),D(n)深度1●●●----------------------------------------------------------------------------------------------------------------------------------------------------------------------------深度(m-1)终端从根节点开始对整个决策树进行分支,对每个切分都要求分成的组之间的“差异”最
4、大。要根据合适算法在节点处选择最佳属性对象进行切分从而得到最优方案。ID3算法把信息熵作为选择测试属性的标准,选择具有最大信息增益(或最大熵减方向)的条件属性作为当前节点。已知有C个结果的训练集SEntropy(S)=Σ-p(I)log2p(I)Entropy(S,A)=Σ(
5、Sv
6、/
7、S
8、)*Entropy(Sv)属性A在集S上的信息增益定义为:Gain(S,A)=Entropy(S)-Entropy(S,A)Gain(S,A)是指已知属性A的值后导致熵的减少。Gain(S,A)越大,说明选择测试属性A对分类提供的信息越多。开始选择根节点选下一
9、个决策节点为下一个决策节点N找到最佳测试属性A赋A为N的测试属性对于A的每个值都创建N的新分支将训练样本分类到各叶子节点No训练样本得以最佳分类Yes停止假设我们希望用ID3决定“天气是否适合打球”。目标分类是“我们要去打球吗?”它有两种目标结果,取消或进行。天数户外温度湿度风速活动D1晴天炎热高弱取消D2晴天炎热高强取消D3阴天炎热高弱进行天气可以用四个属性来刻画,户外,温D4雨天温柔高弱进行度,湿度和风速。它们的属性值分别D5雨天凉爽正常弱进行户外={晴天,阴天,雨天}D6雨天凉爽正常强取消温度={炎热,温柔,凉爽}D7阴天凉爽正常强进行湿度
10、={高,正常}风速={弱,强}D8晴天温柔高弱取消D9晴天凉爽正常弱进行D10雨天温柔正常弱进行D11晴天温柔正常强进行D12阴天温柔高强进行D13阴天炎热正常弱进行D14雨天温柔高强取消1.根节点的选择(增益最大的属性作为根节点)(1)计算目标结果的熵Entropy(活动)=-(9/14)Log2(9/14)-(5/14)Log2(5/14)=0.940(2)计算条件属性的熵Entropy(S晴天)=-(2/5)*log2(2/5)-(3/5)*log2(3/5)=0.971Entropy(S阴天)=-(4/4)*log2(4/4)=0(熵为0
11、表示这一支比较纯,没有分下去的必要)Entropy(S雨天)=-(3/5)*log2(3/5)-(2/5)*log2(2/5)=0.971Entropy(S,户外)=(5/14)*Entropy(晴天)+(4/14)*Entropy(S阴天)+(5/14)*Entropy(S雨天)=(5/14)*0.971+(4/14)*0+(5/14)*0.971=0.693(3)计算条件属性的增益Gain(S,户外)=Entropy(活动)-Entropy(S,户外)=0.94-0.693=0.246同理Entropy(S,温度)=0.911Entropy(
12、S,湿度)=0.789Entropy(S,风速)=0.892Gain(S,温度)=Entropy(活动)-Entropy(S,温度)=0