资源描述:
《决策树算法在商标分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、人工智能原理姓名:成军学好:510061813论文题目:决策树算法在商标分类中的应用中文摘要:决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干。本文将使用决策树算法对给定的商标进行分类。其中有三大类商标数据,每大类使用五分之三的数据进行训练,使用五分Z二的数据进行测试。我们应用Java和MySQI数据库进行测试。用c4.5算法构造决策树。最终对数据进行准确率计算。关键词:决策树分类商标测试Title:Deci
2、siontreealgorithmoftheappIicationfortrademarkcIassificationAbstract:Thedecisiontreeiscommonlytop-downtogenerate・Eachdecisionorevents(namelynaturalstate)arelikelytoelicittwoormoreevents,leadtodifferentresults,putthisdecisionbranchlosergraphicsislikeatree
3、branches.Thisarticlewi11usethedecisiontreealgorithmforgiventhetrademarkofclassification.Therearethreekindsoftrademarkdata,eachofthegroupsusingthreefifthsofthedatatotrain,usetwofifthsoftheexperimentaldata.WeuseJavaandMySQLdatabasetesting・Usec4・5decisiont
4、reealgorithm,sconstruction.Finally,calculatethedataaccuracy.Keywords:DecisiontreecIassificationbrandtest引言:机器学习一般分为3种类型:有监督的、无监督的以及强化学习⑴。有监督学习问题涉及从它的输入和输出的实例中学习一个函数。对于完全可观察的环境,智能体总能够观察到它的行动所带来的影响,因此有监替学习是可行的,否则会因难一些。无监督学习问题涉及在未提供明确的输岀值的情况下,学习输入的模式。纯粹的无监
5、督学习智能体无法学习要做什么,因为它没有信息说明什么能构成正确的行动或者所期望的状态。强化学习问题,是三类问题中最普遍的一个。强化学习是从强化物(起加强作用的事物)中进行学习,而不是根据教师所说的应该做什么进行学习。正文:决策树方法是挖掘分类规则的有效方法,通常包括两个部分:①树的牛成,开始吋所有的数据都在根节点,然后根据设定的标准选择测试属性,用不同的测试属性递归进行数据分割。②树的修剪,就是除去一些可能是噪音或异常的数据。基于信息爛的1D3算法、C4.5算法都能有效地生成决策树,建决策树的关键在于
6、建立分支时对记录字段不同取值的选择。选择不同的字段值使划分出来的记录子集不同影响决策树牛长的快慢及决策树的结构,从而可寻找到规则信息的优劣。可见,决策树算法的技术难点就是选择一个好的分支取值。利用好的取值产生分支可加快决策树的生长,更重要是产生好结构的决策树,并可得到较好的规则信息。相反,若根据一个差的取值产生分支,不但减慢决策树的生长速度,而且使产生的决策树分支过细、结构差,从而难以发现有用的规则信息。随着训练样木集中样木个数的不断增多(即样木集规模不断扩大),训练样本集在主存中换进换岀就耗费了大量
7、的吋间,严垂影响了算法效率。因此使算法能有效处理大规模的训练样本集已成为决策树算法研究的一个重要问题,也是冃前国内对决策树算法研究的热点。本文利用决策树C4.5算法来解决图像的分类问题。现在我们引用下c4.5算法的实例⑷oC4.5算法是构造决策树分类规则的一种算法,它是ID3算法的扩展。ID3算法只能处理离散型的描述性属性而C4.5算法还能够处理描述属性取值为连续型的情况。选取节点的标准是最大信息增益率,具体的算法步骤如下:Stepl:数据源进行数据预处理,将连续型的属性变量进行离散化处理形成决策树的
8、训练集(如果连续取值的属性则忽略);(1)根据原始数据,找到该连续型属性的最小取值大取值歸“(2)在区间[a,b]插人n数值等分为n+1个小区间;(3)分别以a,,i=l,2,-,no为分段点,将区间[a0,an+1]划分为两个子区间:[a0,aj,[(aiH,anJ]对应该连续型的属性变量的两类取值,有n种划分方式;Step2:计算每个属性的信息增益和信息增益率;(1)计算属性A的信息增益Gain(A)信息增益Gain(A)的计算和ID3算法中的完全一