欢迎来到天天文库
浏览记录
ID:53727632
大小:202.48 KB
页数:2页
时间:2020-04-20
《朴素贝叶斯分类器应用的两点注记.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、朴素贝叶斯分类器应用的两点注记唐姜贤王阳。(1、兰州商学院统计学院,2、兰州商学院国际经济与贸易学院)【摘要】朴素贝叶斯分类器是数据挖掘中的著名算法,能够有效地将数据进行有指导的学习,但朴素贝叶斯分类器在实际应用中有两点常常被忽略。一方面,朴素贝叶斯分类器在使用中尽量使用含婆!lz二:有异常值的数据;另一方面,在使用贝叶斯分类器的过程中,事先一1需要进行必要的特征提取以提高分类精度。【关键词】朴素贝叶斯,数据挖掘,噪音,特征提取,适用性,数据预argtd(p(lYyI)eCry))处理朴素贝叶斯
2、分类器的思想本质是在条件独立性的基础上,根据先验概率,推算后验概率,最终根据MLE(极大似然的思想)估计一、朴素贝叶斯分类器的思想、算法介绍出概率最大后验概率,作为其类标号。朴素贝叶斯分类器充分使用朴素贝叶斯分类器是数据挖掘中有指导学习的经典算法。所输入变量的完全信息对输出类别变量进行标号。谓有指导的学习,说得是必须基于样本数据集的已有信息,进行信二、朴素贝叶斯分类器的前提假设和适用性息提取才可以对未知的新的样本数据集进行分类。用于信息提取朴素贝叶斯分类器的前提假设要求输入变量关于输出分类变的样
3、本数据集,我们称之为训练集;对应将提取的新信息用于未知量满足条件独立性。因此,如果变量之间不满足条件独立性,将造的数据集被称作为测试集。成分类器的精度损失。朴素贝叶斯分类器的适用性要求就是根据朴素贝叶斯分类器要求数据集中的变量分为多个输入变量和朴素贝叶斯分类的前提假设,也即要求输入变量在输出变量的条一个给定的类别输出变量。对于数据变量,可以是类别变量也可以件保持独立性假设,即需要满足条件性。是连续性数值变量,但对于输出变量一定要求是类别性的输出变在实际过程中,对于原始数据的预处理的过程中,需要注
4、意的量。朴素分类器的适用条件的前设单一:多个输入变量对于唯一的是有必要对原始的变量数据进行一定的特征提取,在特征提取的输出变量是条件独立的。所谓条件独立性是指,在输出变量确定的方法中PCA可以很好的解决条件独立性的问题。在实际使用朴素条件下,输入变量之间相互具有独立性。贝叶斯的过程中,不是通过对原始变量进行,而是通过PCA转化为用公式表达如下,条件独立性公式特征变量进行朴素贝叶斯,可以达到更高的精度。总结,一般对于数据进行朴素贝叶斯分类学习,要求对原始数P(x.YIz)P(XIZ)P(YIZ).
5、据进行特征提取,以使得满足独立性假设,一般使用PCA变化转化在条件独立基础上,贝叶斯分类将数据的变量分为输出类别为特征变量,再进行朴素贝叶斯分类学习。变量Y和一系列的输入变量x,我们先假定输出类别变量的值,考三、有无异常值的训练集对朴素贝叶斯分类器的精度影响的察是因为输入变量为X的值,对于一系列可能得输出类别变量的对比分析值,在给定输出变量条件下是确定输入变量x的概率可能性最大异常值,也叫离群点(离群值),它是一个观测值,它与其他观的那个所对应的输出类别变量的值。测值的差别如此之大,以至于怀疑它
6、是由不同的机制产生的。产生异常值的机制可以是自然变异、数据测量和收集误差。异常检测常PI一..规方法是概率方法,一般认为和大多数点的分布特征迥异的点是因为无论输出结果如何,发生该事件的概率P(X)是固定的,因异常值。此分母不具有比较价值,因此以上的贝叶斯公式可以等价于以下朴素贝叶斯分类器是一个对异常值不敏感的分类器,在实际从使用过程当中,如果对原始数据降噪的训练,在测试集中表现出泛“~eO'lX)伐P(Xly)
7、P(化能力差。保留原始数据的异常值,可以足够地保持朴素贝叶斯算对于上式公式,实际需要
8、计算的是条件概率P(XIY),即给定法的整体精度。类别的条件下,样本属于各自类的概率P(Y)。下面就不同的数据集使用两种方式进行对比说明,在实际中,在这里需要注意的是,计算条件概率,存在着变量x是离散型含有异常值的数据与无异常值的数据的精确度进行比较,并列出变量、连续型变量两种不同的情况。对于离散型变量,我们可以计比较的表格。算其两个变量的离散变量概率分布列。如果是连续型随机变量,可下面每行数字,是通过10次模拟得到的结果。以采用按照输出的类别,计算出给定条件下的概率密度函数,一般数据集抽样比平
9、均精度标准茬无别除异常值而言,我们假定条件概率密度函数是一个正态分布,于是iris10%O.828O.111Z355{曼iris2O%0.93哇66670.02389276是,—)liris4O%pO.9560.O0562182是P(x—xlr一一l_e—芏;一iris1O%0.832667O.1248189否、,"~-n-o"iris20%0.9506670.00899314否pirlsp40%0.9560.00716645l否只需要做必要的参数估计即可,这里需要估计均值和方差,这C0235%
此文档下载收益归作者所有