欢迎来到天天文库
浏览记录
ID:19265080
大小:965.00 KB
页数:9页
时间:2018-09-22
《part1——分类模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、2014届合肥工业大学数学建模培训资料Part1——分类模型方以类聚,物以群分—《战国策·齐策三》《周易·系辞上》《书·舜典》附亡《书》序:“帝釐下土,方设居方,别生分类,作《汩作》。”孔传:“生,姓也,别其姓族,分其类使相从。”唐白居易《唐故湖州长城县令赠户部侍郎博陵崔府君神道碑铭并序》:“唐虞之际,因生为姜姓。暨周封齐,分类曰崔氏。”马南邨《燕山夜话·选诗和选文》:“所谓‘诗’,所谓‘文’,究竟应该如何区别?它们的体裁和形式又应该怎样分类?实际上这是自古迄今争论未决的问题。”成仿吾《长征回忆录》十:“找出一些认识的,
2、可以吃的野菜,挖出带回来,分类洗干净,煮着吃。”■分类(Classification)—百度百科解释为:把分为有规律的,按照不同的特点分类事物,使事物更有规律。■分类学(Taxonomy)—其基本步骤,包括区分和鉴定分类单元,确定阶元等级和建立分类体系。数据建模中使用的分类和古人所说的是同一种含义:即按照某种意图或者标准,把一堆杂乱的事物或者数据分成若干个理想的类别。而如今,我们常用的分类模型包括监督学习型和非监督学习型两类。其中监督学习型可以认为是有目标的学习分类型;比如把人分为男女两种性别、把学校比赛分为数学建模、电
3、子竞赛、ICPC等,这些都是事先确定类别的分类。非监督学习分类是没有确定目的学习分类;比如把新浪微博用户分为三六九等,我们可以根据用户的属性数据聚类成10个类别,也可以聚类成4各类别。第一部分,将分为8个章节依次讨论:k-邻近算法、决策树、朴素贝叶斯算法、Logistic回归、支持向量机、神经网络、AdaBoost元算法、LibSVM的使用。k-邻近算法是基于距离的分类算法,包括欧氏距离、马氏距离等;决策树,通俗易懂,但是涉及到递归编程,实现上稍微复杂点;朴素贝叶斯是在Bayes模型上简化了的一种模型,如今的情感分析大部
4、分是基于它实现的,是一种概率模型,实现上并不困难;Logistic回归是一种函数模型,其参数优化是分类性能的重要因素,在搜索优化参数的过程中,将采用常用的几种优化算法,像梯度算法、最速降算法、牛顿迭代等;支持向量机需要一定的理论知识,尤其是矩阵理论和拉格朗日算子等,在实现上也颇为复杂,但是效果明显;神经网络算是一种比较流行,但理论不成熟的网络学习算法,参数选择上也是个难点,但实现比较轻松;AdaBoost是通过权重分配,将多个分类器集成的一种模式,其效果往往由于前面几种方法;LibSVM主要是基于AdaBoost实现的开
5、源工具,后续将详细介绍其使用方法及参数调节。在最后还讨论了训练样本非均匀分布时的非均衡分类问题及其处理方式。9内部使用,请勿外泄——王刚2014届合肥工业大学数学建模培训资料第一章k-邻近算法聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著
6、性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。下图1-1是分类的基本图示表达。(a)无标记样本集(b)空间划分(c)空间覆盖图1-1.分类的基本图示本章主要介绍k-邻近聚类算法,简单地说,它是采用测量不同特征值之间的距离方法来进行分类的。它的工作原理是:存在一个样本数据集合,
7、也称作样本训练集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较(在这里是求距离),然后算法提取样本集合中特征最相似数据(最邻近)的若干个分类标签。一般来说,我们只选择样本数据中前k个最相似的数据,这就是k-邻近算法中k的来源,一般k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的类别作为新数据的类别。1.1电影分类示例下面以电影分类为例来说明该算法的计算过程。9内部使用,请勿外泄——王刚2014届合
8、肥工业大学数学建模培训资料在这里,标签是爱情片和动作片,特征是打斗镜头和接吻镜头次数。我们需要做的是根据已有的这些数据来判断电影G的类别,而18和90是新数据。通过表1-1我们可以看到。表1-2是已知类别的电影与未知电影G的距离(这里取欧氏距离),如果k=3的话,那么与G距离最近的三个电影为B、C、A。而这三个类别全
此文档下载收益归作者所有