欢迎来到天天文库
浏览记录
ID:55135271
大小:591.46 KB
页数:10页
时间:2020-04-28
《机器学习SVM习题集.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、SVM1.判断题(1)在SVM训练好后,我们可以抛弃非支持向量的样本点,仍然可以对新样本进行分类。(T)(2)SVM对噪声(如来自其他分布的噪声样本)鲁棒。(F)2.简答题现有一个点能被正确分类且远离决策边界。如果将该点加入到训练集,为什么SVM的决策边界不受其影响,而已经学好的logistic回归会受影响?答:因为SVM采用的是hingeloss,当样本点被正确分类且远离决策边界时,SVM给该样本的权重为0,所以加入该样本决策边界不受影响。而logistic回归采用的是log损失,还是会给该样本一个小小的权重。3.产生式模型
2、和判别式模型。(30分,每小题10分)图2:训练集、最大间隔线性分类器和支持向量(粗体)(1)图中采用留一交叉验证得到的最大间隔分类器的预测误差的估计是多少(用样本数表示即可)?从图中可以看出,去除任意点都不影响SVM的分界面。而保留所有样本时,所有的样本点都能被正确分类,因此LOOCV的误差估计为0。(2)说法“最小结构风险保证会找到最低决策误差的模型”是否正确,并说明理由。(F)最小结构风险(SRM)只能保证在所有考虑的模型中找到期望风险上界最小的模型。(3)若采用等协方差的高斯模型分别表示上述两个类别样本的分布,则分类器
3、的VC维是多少?为什么?等协方差的高斯模型的决策边界为线性,因为其VC维维D+1。题中D=2.4、SVM分类。(第1~5题各4分,第6题5分,共25分)下图为采用不同核函数或不同的松弛因子得到的SVM决策边界。但粗心的实验者忘记记录每个图形对应的模型和参数了。请你帮忙给下面每个模型标出正确的图形。(1)、其中。线性分类面,C较小,正则较大,
4、
5、w
6、
7、较小,Margin较大,支持向量较多(c)(2)、其中。线性分类面,C较大,正则较小,
8、
9、w
10、
11、较大,Margin较小支持向量的数目少(b)(3)、其中。二次多项式核函数,决策边界
12、为二次曲线(d)(4)、其中。RBF核函数,决策边界为曲线,σ=1较大,曲线更平滑(a)(5)、其中。RBF核函数,决策边界为曲线,σ=sqrt(1/2)较小,曲线更弯曲(e)(6)考虑带松弛因子的线性SVM分类器:下面有一些关于某些变量随参数C的增大而变化的表述。如果表述总是成立,标示“是”;如果表述总是不成立,标示“否”;如果表述的正确性取决于C增大的具体情况,标示“不一定”。(1)不会增大(不一定)(2)增大(不一定)(3)不会减小(是)(4)会有更多的训练样本被分错(否)(5)间隔(Margin)不会增大(是)5、考虑
13、带松弛因子的线性SVM分类器:。在下图中,,并且已经标出分界面和支持向量。请给每幅图标出最可能的C的取值,并分析原因(20分)。答:等价于所以,即margin减小(当C增大到一定程度时,Margin不再变化),不允许错分太多样本(对错分样本的惩罚大),支持向量(落在Margin内的样本和错分的样本)的数目减少。6.SVM(1)下面的情况,适合用原SVM求解还是用对偶SVM求解。1)特征变换将特征从D维变换到无穷维。(对偶)2)特征变换将特征从D维变换到2D维,训练数据有上亿个并且线性可分。(原)(2)在线性可分情况下,在原问题
14、形式化中怎样确定一个样本为支持向量?在原问题中,给出了w,w0,支持向量满足:。7.SVM和松弛因子。考虑如图给出的训练样本,我们采用二次多项式做为核函数,松弛因子为C。请对下列问题做出定性分析,并用一两句话给出原因。(1)当Cà∞时,决策边界会变成什么样?答:当C很大时,错分样本的惩罚会非常大,因此模型会尽可能将样本分对。(记住这里决策边界为二次曲面)Cà∞Cà0(2)当Cà0时,决策边界会变成什么样?可以错分少量样本,但Margin大(3)你认为上述两种情况,哪个在实际测试时效果会好些?我们不能过于相信某个特定的样本,因此
15、Cà0的效果会好些,因为它最大化样本云团之间的Margin.(4)在图中增加一个点,使得当Cà∞时,决策边界会不变。能被原来的分类器正确分类,不会是支持向量。(1)在图中增加一个点,使得当Cà∞时,该点会显著影响决策边界。能被原来的分类器正确分类,不会是支持向量。当C很大时,错分样本的惩罚会非常大,因此增加一个不能被原来分类器正确分类的样本会影响决策边界。8.对outlier的敏感性。我们知道在SVM用于回归时,等价于采用ε不敏感的损失函数(如下图所示),即SVM的目标为:。课堂已经讨论L2损失对outliers比较敏感,而L
16、1损失和huber损失相对不敏感些。(1)请说明为什么L2损失比较L1损失对outliers更敏感。Outlier为离群点,因此其预测残差r会比较大。L2损失为残差r的平方r2,L1损失为残差r的绝对值
17、r
18、。当r>1时,r2>
19、r
20、,从而L2损失在outliter样本点的值
此文档下载收益归作者所有