基于距离度量的局部加权朴素贝叶斯算法改进

基于距离度量的局部加权朴素贝叶斯算法改进

ID:33018447

大小:87.76 KB

页数:5页

时间:2019-02-19

基于距离度量的局部加权朴素贝叶斯算法改进_第1页
基于距离度量的局部加权朴素贝叶斯算法改进_第2页
基于距离度量的局部加权朴素贝叶斯算法改进_第3页
基于距离度量的局部加权朴素贝叶斯算法改进_第4页
基于距离度量的局部加权朴素贝叶斯算法改进_第5页
资源描述:

《基于距离度量的局部加权朴素贝叶斯算法改进》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文章编号:100325850(2009)1020046204基于距离度量的局部加权朴素贝叶斯算法改进inprovementofLocallyWeightedNaiveBayesianAlgorithmsedonDistanceMeasure拿8斐斐I葛文1^2('杭州应用声学研究所杭州310012)(2黄淮学院计算机科学系河南驻马店463000)【摘要】基于局部加权朴素贝叶斯算法和处理混合型属性距离度量方法的研究,针对局部加权算法中存在的一些问题,将两种相似性距离度量方法运用于局部加权朴素贝叶斯方法,构造LBVDMLWL和2DMLWL两种算法。通过在WEK

2、A中的实验将这两种算法的分类结果进行分析与比较,发现改进的局部加权朴素贝叶斯的距廃函数,能更精确地对不同类型属性数据进行分类,有效提高了局部加权朴素贝叶斯算法分类的效率和可靠性。【关键词】局部加权朴素贝叶斯,距离函数,VDM,IVDM中图分类号:TP311文献标识码:AABSTRACTLocallyWeightedNa?veBayesianalgorithmandthemixedattributesofdistancemeasureareresearched,meanwhile,somepmblemswaspresented1Thepaperpresent

3、sandanalysesthesiniilarityofthetwodistancemeasuranentmethods,andall(womethodstouseinthelocallyweightedlearningalgorillun1TheexperinenisinWEKAshowsthatthedistancesfunctionreducethedependenceoftheattributesandeffectivelyrnprovetheclassificatbnaccuracy1Itshowsthebcallyweightedalgorit

4、hmefficiencyandreliability1KEYWORDSlocallyweightednaiveBayes,distancefunctbn,VDM,IVDM局部加权学习(Locallyweightedlearning,LWL)是K2ffi邻方法的推广i,不仅用于处理线性回归,还用于处理加权实例的学习技术,特别是分类I耳题。Frank等(2003年)对于局部加权学习和朴素贝时斯结合应用进行评估2,提高了朴素贝叶斯的分类效果,但不能避免在实际问题中混合属性距离度量对分类的影响,降低了分类的效率和精确度。改进LWL方法,提高局部加权朴素贝叶斯算法的

5、效率和可靠性显得至关重要。1局部加权朴素贝叶斯111局部加权朴素贝叶斯原理局部加权学习方法是消极学习(lazylearning)利基于记忆学习(manory2basedlearning)的一种形式'O将所有数据点储存起來,当查询时,通过距离氏数计算所储存的数据点与查询点的距离以确定与查询点相关的数据点,构造一个参数模型拟和数据并给出查询值。局部加权朴素贝叶斯(LocallyWeightedNaiv(Bayesian,LWNB)的方法就是简单的存储训练数据并II推迟涉及学习功能的部分直到分类。当要求分类一个新的实例,使用权值设定训练实例定位测试实例构造一个新

6、的朴素贝叶斯模型。局部加权帮助缓解在全部数据中存在的属性依赖的作用,并且如果邻近笊测试实例之间没有很强的依赖性“,这种方法会很有效。因为朴素贝叶斯相对要求训练少量数据,邻近可以保证很小,这样可以减少遇到很强依赖屈性的机率。在Frank的实验屮也明显看出局部朴素贝叶斯与贝叶期以及其他分类方法比较屮,局部朴素贝叶斯模型减少了邻近之间很强依赖性的机率,同吋有效的减轻了性作用的依赖。112存在的问题局部加权朴素贝叶斯模型的核心是选取与查询点相似的数据点建立局部模型进行预测。其关键思想之一是实例数据点的相似性计算,如何选择适当的距谀度量计算问题是非常重要的。多数算法

7、都是运用欧几里德度量去估计实例间的距离'。尽管这种度暈方浇很有效,但在处理实际问题中仍有一些问题。①欧几里德度量针对名词性属性时不是一种宜接的方式。在处理名词性属性,把属性值定义成数或是排序,然后按数值型属性值处理;或是直接判断属性值是否相同。32009207208收到,2009208222改回33郭斐斐,女,1982年生,硕士,研究方向:局部加权算法,数据挖掘。Ec=1vdmavdmU(Xa,ya)vdma(disca(xa),dosca()5))②欧几里徳度量不总是适合不同的比例(例如,温度表中汞的毫米高度与摄氏度Z间的比例)和不冋的可变性(例如,身体

8、测量吋,血压变化高而体温变化低)的数值属性。本文主要针对距离度量问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。