libsvm分类的实用指南

libsvm分类的实用指南

ID:30361821

大小:84.42 KB

页数:14页

时间:2018-12-29

libsvm分类的实用指南_第1页
libsvm分类的实用指南_第2页
libsvm分类的实用指南_第3页
libsvm分类的实用指南_第4页
libsvm分类的实用指南_第5页
资源描述:

《libsvm分类的实用指南》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、LibSVM分类的实用指南摘要SVM(supportvectormachine)是一项流行的分类技术。然而,初学者由于不熟悉SVM,常常得不到满意的结果,原因在于丢失了一些简单但是非常必要的步骤。在这篇文档中,我们给出了一个简单的操作流程,得到合理的结果。(译者注:本文中大部分SVM实际指的是LibSVM)1入门知识SVM是一项非常实用的数据分类技术。虽然SVM比起神经网络(NeuralNetworks)要相对容易一些,但对于不熟悉该方法的用户而言,开始阶段通常很难得到满意的结果。这里,我们给出了一份指南,根据它可以得到合理结果。需要注意,此指南不适用SVM的研究者,

2、并且也不保证一定能够获得最高精度结果。同时,我们也没有打算要解决有挑战性的或者非常复杂的问题。我们的目的,仅在于给初学者提供快速获得可接受结果的秘诀。虽然用户不是一定要深入理解SVM背后的理论,但为了后文解释操作过程,我们还是先给出必要的基础的介绍。一项分类任务通常将数据划分成训练集和测试集。训练集的每个实例,包含一个"目标值(targetvalue)"(例如,分类标注)和一些"属性(attribute)"(例如,特征或者观测变量)。SVM的目标是基于训练数据产出一个模型(model),用来预测只给出属性的测试数据的目标值。给定一个训练集,"实例-标注"对,,支持向量

3、机需要解决如下的优化问题:在这里,训练向量xi通过函数Φ被映射到一个更高维(甚至有可能无穷维)空间。SVM在这个高维空间里寻找一个线性的最大间隔的超平面。C0是分错项的惩罚因子(penaltyparameteroftheerrorterm)。被称之为核函数(kernelfunction)。新的核函数还在研究中,初学者可以在SVM书中找到如下四个最基本的核函数:(线性、多项式、径向基函数、S型)1.1实例表1是一些现实生活中的实例。这些数据集是由我们的用户提供的,其开始时无法获得理想精度的结果。使用了本指南描述的过程后,我们帮助他们获得了更好的性能。这些数据集都在:建议

4、流程许多初学者使用如下的步骤:·将数据转换成SVM程序包的格式·随机的尝试一些核函数和参数·测试而我们建议初学者先尝试如下的步骤:·将数据转换成SVM格式包的格式·对数据进行简单的缩放处理(scaling)·考虑RBF核:·使用交叉验证(cross-validation)寻找最佳参数C和Υ·使用最佳参数C和Υ来训练整个训练集·测试值得一提的是,最佳参数是受数据集的大小影响的,但在实践中,从交叉验证中获得的最佳参数已经适用于整个训练集。后面章节,我们将具体探讨这些步骤。2数据预处理2.1类别特征SVM需要每个实例的特征集,是用实数向量表示。因此,如果存在类别属性,我们首

5、先将它们转变成数值。推荐使用m个数值特征来表示m类的属性。每个数值表示其中一个类别为1,其它类为0。例如,一个三类属性{red,green,blue},可以表示成{0,0,1},{0,1,0},{1,0,0}。我们的经验表明,如果属性的数值不是太大,这样分解成多特征比直接将类别属性当做数值使用的效果要稳定。2.2缩放应用SVM之前,缩放是非常重要的。Sarle的神经网络FAQ的第二部分(1997)阐述了缩放的重要性,大多数注意事项也适用于SVM。缩放的最主要优点是能够避免大数值区间的属性过分支配了小数值区间的属性。另一个优点能避免计算过程中数值复杂度。因为关键值通常依

6、赖特征向量的内积(innerproducts),例如,线性核和多项式核力,属性的大数值可能会导致数值问题。我们推荐将每个属性线性缩放到区间[-1,+1]或者[0,1]。当然,我们必须使用同样的方法缩放训练数据和测试数据。例如,假设我们把训练数据的第一个属性从[-10,+10]缩放到[-1,+1],那么如果测试数据的第一个属性属于区间[-11,+8],我们必须将测试数据转变成[-1.1,+0.8]。附录B中有一个实例可参考。3模型选择虽然章节一中只有四个常用核函数,但我们必须决定哪一个是首选。然后是惩罚因子C和核参数的选择。3.1RBF核通常而言,RBF核是合理的首选。

7、这个核函数将样本非线性地映射到一个更高维的空间,与线性核不同,它能够处理分类标注和属性的非线性关系。并且,线性核是RBF的一个特例(KeerthiandLin2003),因此,使用一个惩罚因子C的线性核与某些参数(C,γ)的RBF核具有相同的性能。同时,Sigmoid核的表现很像一定参数的RBF核(LinandLink2003)。第二个原因,超参数(hyperparameter)的数量会影响到模型选择的复杂度(因为参数只能靠试验呀!)。多项式核比RBF核有更多的超参数。最后,RBF核有更少的数值复杂度(numericaldifficulties)。一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。