机器学习分类算法中必须要懂的四种算法.doc

机器学习分类算法中必须要懂的四种算法.doc

ID:28100544

大小:188.00 KB

页数:5页

时间:2018-12-08

机器学习分类算法中必须要懂的四种算法.doc_第1页
机器学习分类算法中必须要懂的四种算法.doc_第2页
机器学习分类算法中必须要懂的四种算法.doc_第3页
机器学习分类算法中必须要懂的四种算法.doc_第4页
机器学习分类算法中必须要懂的四种算法.doc_第5页
资源描述:

《机器学习分类算法中必须要懂的四种算法.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、机器学习分类算法中必须要懂的四种算法朴素贝叶斯分类  朴素贝叶斯分类是基于贝叶斯定理与特征条件独立假设的分类方法,发源于古典数学理论,拥有稳定的数学基础和分类效率。它是一种十分简单的分类算法,当然简单并不一定不好用。通过对给出的待分类项求解各项类别的出现概率大小,来判断此待分类项属于哪个类别,而在没有多余条件的情况下,朴素贝叶斯分类会选择在已知条件下,概率最大的类别。    贝叶斯分类算法的实质就是计算条件概率的公式。在事件B发生的条件下,事件A发生的概率为P(A

2、B)来表示。    P(A

3、B)的概率为  。

4、在日常应用中,我们经常可以直接得出P(A

5、B),而P(B

6、A)直接得到比较困难,通过贝叶斯定理就可以通过P(A

7、B)获得P(B

8、A)。  而朴素贝叶斯分类的正式定义则如下:    朴素贝叶斯算法在执行文本分类等工作是会有很好的效果,比如朴素贝叶斯算法常被使用于垃圾邮件的过滤分类中。SVM算法  支持向量机(SupportVectorMachine,常简称为SVM)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析。支持向量机属于一般化线性分类器,它能够同时最小化经验误差与最大化几何边缘区,因此支持向量机

9、也被称为最大边缘区分类器。  同时支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。    SVM算法虽然存在难以训练和难以解释的问题,但是在非线性可分问题上的表现十分优秀,在非线性可分问题中常选择SVM算法。基于KNN的算法  K-近邻算法,简称KNN(k-NearestNeighbor),它同样是一个比较简单的分类、预测算法。对选取与待

10、分类、待预测数据的最相似的K个训练数据,通过对这K个数据的结果或者分类标号取平均、取众数等方法得到待分类、待预测数据的结果或者分类标号。    K-近邻算法如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。在不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形)的情况下,我们可以从它的临近的样本进行判断。  如果K=3,绿色圆点最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿

11、色的这个待分类点属于红色的三角形一类。  如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。  从上文我们看到,当无法判定当前待分类点是从属于已知分类中的哪一类时,可以依据统计学的理论看它所处的位置特征,衡量它周围邻居的权重,而把它归为(或分配)到权重更大的那一类,这就是K近邻算法的核心思想。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。