加权朴素贝叶斯算法及其weka程序分析20151216a

加权朴素贝叶斯算法及其weka程序分析20151216a

ID:13948462

大小:61.60 KB

页数:16页

时间:2018-07-25

加权朴素贝叶斯算法及其weka程序分析20151216a_第1页
加权朴素贝叶斯算法及其weka程序分析20151216a_第2页
加权朴素贝叶斯算法及其weka程序分析20151216a_第3页
加权朴素贝叶斯算法及其weka程序分析20151216a_第4页
加权朴素贝叶斯算法及其weka程序分析20151216a_第5页
资源描述:

《加权朴素贝叶斯算法及其weka程序分析20151216a》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、16局部加权朴素贝叶斯算法及其Weka程序分析局部加权朴素贝叶斯算法及其Weka程序分析本文是多年来经过无数次修正的版本,其中融入了许多学生的建议.而且也是时时更新的.特别地,本文仅供学生学习使用,并不适合于发表在任何公开媒体上,也不允许任何学生将之存放到互联网上.另外,与一般学术论文不同,本文许多地方采用第1人称进行讲述.张伟(北京交通大学计算机与信息技术学院,北京,100044)摘要:局部加权朴素贝叶斯是一种改进朴素贝叶斯算法独立性假设缺陷的算法.通过实验证明加权朴素贝叶斯算法具有很好的效果,比朴素贝叶斯和K最近邻方法的效果都要好。关键字:局部加权,朴素贝叶斯在机器学习中直接使用贝叶斯

2、定理是不现实的,因为训练集不足以获得全概率分布的准确估计。朴素贝叶斯分类算法是一种优秀的分类算法,但由于其必须满足属性独立性假设,使得该算法具有了一定的局限性。局部加权朴素贝叶斯算法为了从该算法的弱点独立性假设入手,对朴素贝叶斯算法进行改进,提出了一种基于K近邻法的局部加权朴素贝叶斯分类算法。实验表明该算法提高了分类的可靠性与准确率。1局部加权朴学习局部加权学习(locallyweightedlearning,简称LWL),既可用于回归问题(如局部加权线性回归),又可用于分类问题(如局部加权朴素贝叶斯)。局部加权分类是一种比较新的方式,在一些实验中表现出更高的准确率。分类过程需要对训练实例

3、根据它们离测试实例的距离进行加权。在传统的加权学习算法中通常使用欧几里德距离来度量实例间的距离。局部加权学习是方法是懒惰学习(lazylearning)和基于记忆学习(memory-basedlearning)的一种形式,它需要存储数据集,当需要对一个新实例进行处理,通过距离函数计算训练实例和测试实例的距离以确定和测试实例相关的训练实例的加权集合构,然后用该集合构造一个新的模型来处理新实例。16局部加权朴素贝叶斯算法及其Weka程序分析1.1局部加权朴素贝叶斯原则上,贝叶斯定理保证了对一个给定属性值向量的新实例的类标的最优预测。不幸的是,直接将贝叶斯定理用于机器学习是不现实的,因为不可避免

4、训练数据不足以获得全概率分布的精确估计。为了使推理可行必须先满足一些独立性假设。朴素贝叶斯方法把独立性假设发挥到了极致,假定属性对于给定的类标值是统计上独立的。虽然这个假设在实际中并不成立,朴素贝叶斯在许多分类问题上表现的非常好。此外,朴素贝叶斯计算效率—训练在实例个数和属性个数上都是线性的且易于执行。机器学习相关文章开始关注朴素贝叶斯学习算法归功于Clark和Niblett的有关CN2规则学习的文章。在这篇文章中他们在实验评估中使用了一个简单的贝叶斯分类器(朴素贝叶斯)作为对比,朴素贝叶斯分类器比其他更成熟的学习算法表现更好。虽然已经对朴素贝叶斯在一些违反属性独立假设的情况下具有良好表现

5、进行了解释,但一个基本事实没有改变,那就是当独立性假设不成立时,概率估计精度和效果都会下降。很多用于提高朴素贝叶斯效果的方法被提出,其中许多方法在保持原算法的简单性和计算高效性的同时降低算法的“朴素性”。Zheng和Webb在这个领域的工作进行了很好的总结。最有效的方法包括:贝叶斯网络的限制子类、结合了属性选择的朴素贝叶斯或者将朴素贝叶斯模型结合到其他分类器(例如决策树)。事实证明局部加权的朴素贝叶斯算法具有很好的效果,比朴素贝叶斯和K最近邻方法的效果都要好。我们用来加权朴素贝叶斯的方法是从一项源于用来对非线性回归模型进行估计的技术中借鉴而来,线性回归模型适合基于加权函数的数据,这个加权函

6、数用来处理要进行预测的实例。由于加权函数随着每个需要处理的实例改变,所以由此产生的估计是非线性的。本文我们研究了用于分类的局部加权学习,局部加权学习在机器学习中没有得到很多关注。Loader(1999)和Hastie(2001)从统计学角度研究了所谓的“局部可能性”方法,包括局部加权线性逻辑回归和局部加权密度估计。朴素贝叶斯是用密度估计进行分类的例子。和逻辑回归相比它具有优势:在属性个数上是线性的,这是这种方法在具有多属性的学习问题上具有更高的计算有效性。我们使用朴素贝叶斯的方式和在局部加权线性回归中使用线性回归的方式一样:一个局部朴素贝叶斯模型适合于用来预测类属性实例(我们称这个实例为测

7、试实例)的领域中的数据集的子集。此领域中的训练实例是加权的,距离测试实例越远的例子具有的权重越小。然后一个分类器可以从朴素贝叶斯模型获得,朴素贝叶斯模型将测试实例的属性值作为输入。用来训练每个局部加权朴素贝叶斯模型的数据集的子集由最近邻算法决定。用户指定的参数k控制使用多少个实例。这通过使用具有紧支撑的加权函数和为k最近邻的距离设定宽度(或带宽)来实现。16局部加权朴素贝叶斯算法及其Weka程序分析1.2属性处理令di表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。