从决策树学习谈到贝叶斯分类算法、em、hmm.

从决策树学习谈到贝叶斯分类算法、em、hmm.

ID:9383812

大小:973.72 KB

页数:41页

时间:2018-04-29

从决策树学习谈到贝叶斯分类算法、em、hmm._第1页
从决策树学习谈到贝叶斯分类算法、em、hmm._第2页
从决策树学习谈到贝叶斯分类算法、em、hmm._第3页
从决策树学习谈到贝叶斯分类算法、em、hmm._第4页
从决策树学习谈到贝叶斯分类算法、em、hmm._第5页
资源描述:

《从决策树学习谈到贝叶斯分类算法、em、hmm.》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM引言  最近在面试中,除了基础& 算法&项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类&分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用,甚至以备将来常常回顾思考。行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚至哉。  本文借鉴和参考了两本书,一本是TomM.Mitchhell所著

2、的机器学习,一本是数据挖掘导论,这两本书皆分别是机器学习&数据挖掘领域的开山or杠鼎之作,读者有继续深入下去的兴趣的话,不妨在阅读本文之后,课后细细研读这两本书。除此之外,还参考了网上不少牛人的作品(文末已注明参考文献或链接),在此,皆一一表示感谢(从本质上来讲,本文更像是一篇读书&备忘笔记)。  本系列暂称之为Top10AlgorithmsinDataMining,其中,各篇分别有以下具体内容:1.开篇:即本文 从决策树学习谈到贝叶斯分类算法、EM、HMM;2.第二篇:支持向量机通俗导论(理解SVM的三层境

3、界);3.第三篇:从K近邻算法、距离度量谈到KD树、SIFT+BBF算法;4.第四篇:神经网络待写...  说白了,一年多以前,我在本blog内写过一篇文章,叫做:数据挖掘领域十大经典算法初探(题外话:最初有个出版社的朋友便是因此文找到的我,尽管现在看来,我离出书日期仍是遥遥无期)。现在,我抽取其中几个最值得一写的几个算法每一个都写一遍,以期对其有个大致通透的了解。  OK,全系列任何一篇文章若有任何错误,漏洞,或不妥之处,还请读者们一定要随时不吝赐教&指正,谢谢各位。分类与聚类,监督学习与无监督学习  在讲

4、具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题。·Classification(分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个classifier会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervisedlearning(监督学习),·而Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要

5、实现的目标只是把相似的东西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此clustering通常并不需要使用训练数据进行学习,这在MachineLearning中被称作unsupervisedlearning(无监督学习). 常见的分类与聚类算法  所谓分类分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在自然语言处理NLP中,我们经常提到的文本分类便就是一个分类问题,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法

6、(nativeBayesianclassifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearestneighbor,kNN),模糊分类法等等(所有这些分类算法日后在本blog内都会一一陆续阐述)。  分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。  而K均值(K-meanscl

7、ustering)聚类则是最典型的聚类算法(当然,除此之外,还有很多诸如属于划分法K-MEDOIDS算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法,本系列后续会介绍其中几种)。 监督学习与无监督学习  机器学习发展到现在,一般划分为监督学习(supervisedlearning),半监督学习(se

8、mi-supervisedlearning)以及无监督学习(unsupervisedlearning)三类。举个具体的对应例子,则是比如说,在NLP词义消岐中,也分为监督的消岐方法,和无监督的消岐方法。在有监督的消岐方法中,训练数据是已知的,即每个词的语义分类是被标注了的;而在无监督的消岐方法中,训练数据是未经标注的。  上面所介绍的常见的分类算法属于监督学习,聚类则属于无监督学习(反过来说,监督学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。