数据模型与决策论文数据模型与决策论文

数据模型与决策论文数据模型与决策论文

ID:34344483

大小:58.14 KB

页数:8页

时间:2019-03-05

数据模型与决策论文数据模型与决策论文_第1页
数据模型与决策论文数据模型与决策论文_第2页
数据模型与决策论文数据模型与决策论文_第3页
数据模型与决策论文数据模型与决策论文_第4页
数据模型与决策论文数据模型与决策论文_第5页
资源描述:

《数据模型与决策论文数据模型与决策论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据模型与决策论文数据模型与决策论文ID3算法创建的数据模型的存储结构探讨摘要:利用ID3算法创建的模型是-个不规则的多叉树,这棵树可以用来预测某一事物的发展,从而为决策者提供数据支持。为了能够使用计算机根据模型进行决策,需要设计合理的数据结构来存储树中的各个结点,为算法设计提供支持。该文根据训练集的数据样本创建了数据模型,并根据模型的特点和查找要求,探讨了多叉树的存储方法,以保证算法的运行效率。关键词:ID3算法;信息增益;决策树;数据结构;结点TheID3AlgorithmCreateStorageStructureof

2、theDataModelareDiscussedYANGLong-ping(LiuzhouRailwayVocationalTechnicalCollege,Liuzhou545007,China)Abstract:ID3algorithmisusedtocreatethemodelisamoreirregulartree,thetreecanbeusedtopredictthedevelopmentofcertainthings,soastoprovidedatatosupportdecision-makers・Tobea

3、bletomakedecisionsbasedonthemodelusingacomputerrequiresadatastructuredesignedtostoreallnodesinthetree,thealgorithmisdesignedtoprovidesupport・Basedonthetrainingsetofdatasamplestocreateadatamodel,andfindthemodelcharacteristicsandrequirementsofthemulti-treestoragemeth

4、od,inordertocnsuretheefficiencyofthealgorithm.Keywords:ID3algorithm;informationgain;decisiontree;datastructure:node对于同一个问题,可能会有多个算法可以解决,但是,执行时间短的算法效率高,而算法的效率与存储量的需求有很大的关系。数据在计算机中的存储方式,是影响算法的执行效率重要因素。1ID3算法创建模型的基本思路ID3是基于信息矯的决策树分类算法,算法核心是在决策树中各级结点上选择属性,用信息增益作为属性选择标准

5、[1],使得在每一个非叶子结点进行测试时,能够获得关于被测试例子最大的类别信息,利用该属性将例子分成子集后,系统的爛值最小。期望该非叶子结点到达各后代叶结点的平均路径最短,生成的决策树平均深度较小,从而能够提高分类速度和准确率。ID3算法计算每…个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性[2]。对被选取的测试属性创建一个结点,并以属性标记,对该属性的每个值创建一个分支,依次类推。创建决策树的方法主要由儿个公式构成,分别是计算样本分类的期望信息、计算子集的矯、计算子集的期望信息和计算信息增益。1.1计算样

6、本分类的期望信息设S是s个数据样本的集合,假定类标号属性具有n个不同的值,定义n个不同的类Ci(i=l,2,3,•••,n)o设si是类Ci中的样本数,则对一个给定的样本分类所需的期望信息,可以由公式[3]计算出来。其中pi是任意样本属于Ci的概率,一般可用si/s来估计;对数函数以2为底,因为信息用二进制编码。1.2计算子集的爛设属性A具有m个不同值{al,a2,…,am}o可以用属性A将S划分为m个子集{SI,S2,…,Sm}。如果A作为测试属性,则这些子集对应于由包含集合S的结点生长出来的分支。假设sij是子集Sj中类

7、Ci的样本数[1]。则由A划分成子集的癮的计算可以由公式计算获得,其中充当第j个子集的权,并且等于子集中的样本个数除以S中的样本总数[1]。嫡值越小,子集划分的纯度越高。1.3计算子集的期望信息对于给定的子集Sj,期望信息可以根据计算出来,其中是Sj中的样本属于类Ci的概率[1]。1.4计算信息增益根据期望信息和爛值,可以得到对应的信息增益值。对于在A上分支将获得的信息增益可以由公式Gain(A)=I(si,s2,…,sn)—E(A)计算出来[4]。Gain(A)是由于获得属性A的值而导致的嫡的期望压缩,决策树算法就是计算每

8、个属性的信息增益,将具有最高信息增益的属性选作给定集合S的测试属性,创建一个节点,并以该属性标记,根据属性的每个值来创建树的分枝,并且据此划分样本。2ID3算法创建数据模型的结构根据采集到的数据样本,可以将数据分成训练集和测试集,其中训练集用于创建决策树,测试集用来对创建的模型进行验证,检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。