基于邻居规则的分类算法x

基于邻居规则的分类算法x

ID:40153081

大小:3.05 MB

页数:31页

时间:2019-07-23

基于邻居规则的分类算法x_第1页
基于邻居规则的分类算法x_第2页
基于邻居规则的分类算法x_第3页
基于邻居规则的分类算法x_第4页
基于邻居规则的分类算法x_第5页
资源描述:

《基于邻居规则的分类算法x》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、敬烜基于邻居规则的分类算法LOGO1目录1234常见分类器算法CRN算法原理算法结果比较算法不足21决策树分类器3决策树通过把实例从根节点排列到某个叶子节点来分类实例。叶子节点即为实例所属的分类树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值下图即为一颗决策树对于每一个输入例如(男,10,北京)、(女,30,成都),遍历这棵树都能得到结果。1根据天气情况决定是否外出的决策树4上面的决策树对应下面的表达式15怎么建立这棵树?构造一棵决策树要解决的4个问题;(1)收集待分类的数据,这些数据的所有属性应该是完全标注的。(2

2、)设计分类原则,即数据的哪些属性可以用来分类,以及如何将该属性量化。(3)分类原则的选择,在众多的分类准则中,每一步选择哪一准则是最终的树更令人满意。(4)设计分类停止条件。通用分类目标是整棵树的熵的总量最小。1决策树之ID3算法6ID3的思想自顶向下构造决策树从“哪一个属性将在树的根节点被测试”开始使用统计测试来确定每一个实例属性单独分类训练样例的能力ID3的过程分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程ID3中衡量属性分类能力的标准信息增益熵1神经网络7神经网络或者称作连接模型,它是一种

3、模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。1人工神经网络模型8神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经元个数难以确定,容易陷入局部极小,还有过学习的现象,这些本身的缺陷在算法中可以得到很好地解决1人工神经网络模型9神经网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。(a)简单的前向神经网络(b)具有反馈的前向神经网络(c)具有层内互联的神经网络1贝叶斯分类器10贝叶斯分类算法是一种利用概率统计学的知识进行分类的算法。贝叶斯分类算法NaivebayesTA

4、NBANGBN在通常情况下,Naivebayes分类算法的分类准确度和速度是可以与神经网络或者决策树的效果相提并论的,且对于大型的数据库该算法也可以表现得很好。1朴素贝叶斯分类器11朴素贝叶斯分类器朴素贝叶斯分类器建立在一个类条件独立性假设(朴素假设)基础之上:给定类结点(变量)后,各属性结点(变量)之间相互独立。2基于邻居规则的分类12算法,即基于邻居规则的分类,它是由华南理工大学计算机学院的王家兵老师及其合作者提出来的。不同于传统的基于实例的分类算法中邻居的概念,我们这里将邻居用一种类似于基于规则的方式来定义:对于一个被测试的实例,和一个已知类标

5、签值的实例,当且仅当它们对于一个特征属性子集中所有属性的属性值都相等时,它们才可以被称为是邻居。因此,算法并没有用任何的度量标准来衡量一个被测试的实例与它的邻居的相似性。一种新的衡量属性质量的方法也在本算法中提出来了。在新的衡量属性质量的方法和在基于规则的分类器中被广泛使用的分治策略的基础上,就可以得到一个特征属性集合,从而未标签的实例就可以在特征集合的基础上利用其邻居就可以被分类了。2相关定义说明13:表示所有的训练集;:表示训练集中类标签值为的所有实例组成的集合;:表示训练集中类标签值不为的所有实例组成的集合,即为训练集中除了属于相对应集合里的实

6、例外的其它所有实例都属于该集合;:表示训练集中实例的总个数;:表示训练集中除了类标签外其它属性的个数,属性名分别用,,……及来表示;:表示训练集中所有不同实例类标签值的个数,类标签值分别用,,……及来表示。2相关定义说明14定义1:通过属性可区分的实例给出一个属于的实例,一个属于的实例,和一个属性,当实例的属性值与实例的属性值不相等时,我们就说实例是实例通过属性可区分的实例。同理,给出一个属于的实例,一个属于的实例和一个属性的集合,当对于中每一个都有中的某个属性的属性值与实例对应的属性值不相等时,我们就说中所有的实例都是通过属性集合可区分的实例集合。

7、定义2:通过属性可区分的实例个数给出一个属于的实例,一个属性和一个的子集,我们定义来表示中实例通过属性可区分的实例个数,也就是说,表示的是训练集中与实例的类标签值和属性的值都不相同的实例个数。定义3:属性质量在决策树和归纳法规则学习范例中属性的质量通常都是用按照训练集中类的纯度来衡量的。所有实例都属于同一个类的实例集是最纯的,每一个类中的实例比例都相同的实例集是最不纯的。2相关定义说明15熵的定义属性有从的个不同的属性值,当取值为和取值为时,用来表示集合中所有属性的值为和类标签值为的实例集合,用来表示对于每一个的的联合。则训练集中属性的熵,用下面公式

8、计算得到:在上面的公式中,定义零的对数为零。属性的熵提供了一个衡量训练集的子集的纯度的方法。尤其是当等于零的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。