对应用统计方法评估核函数分类能力的研究

对应用统计方法评估核函数分类能力的研究

ID:856246

大小:10.26 MB

页数:27页

时间:2017-09-20

对应用统计方法评估核函数分类能力的研究_第1页
对应用统计方法评估核函数分类能力的研究_第2页
对应用统计方法评估核函数分类能力的研究_第3页
对应用统计方法评估核函数分类能力的研究_第4页
对应用统计方法评估核函数分类能力的研究_第5页
资源描述:

《对应用统计方法评估核函数分类能力的研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用统计方法综合评估核函数分类能力的研究*)王泳1,2胡包钢1,21(中国科学院自动化研究所模式识别国家重点实验室北京100190)2(中国科学院研究生院北京100049)摘 要本文应用统计方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正重复取样t测试”引入到核函数选择中,通过其与k-折交叉验证、配对t测试等多种统计方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息增益的评估核函数模式识别能力的定量评估准则,证明了该准则是传统评估准则的非线性函数.数值实验表明,不同模型评估准则之间存在差异,但应用统

2、计方法可以从这些差异中发现一些规律.同时,不同统计方法之间也存在显著差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才能对不同核函数的分类能力进行客观评估.关键词 核函数选择;模式识别;纠正重复取样t测试;信息增益;非线性函数中图法分类号TP391第27页共27页1引言在支持向量机(SupportVectorMachines,SVMs)[1]方法中,核函数选择十分重要.研究表明[1],针对同一分类问题,选择不同的核函数,分类性能可能会相差很大.这主要是因为构成核函数的非线性映射是隐函数,且

3、这些隐函数的类型是多样可变的.所以当人们对特定问题没有任何先验知识的时候,很难确定应该选择哪一类核函数进行计算.虽然利用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所对应的特征映射可以确保任意两个不连接的有界闭集在特征空间中线性可分[2],但如何构造这类最优核至今却还缺乏行之有效的方法.众多学者从不同的角度对核函数选择[3,4]和构造[5-8]问题进行了有益的探讨,但综合性的评估研究仍是缺乏的.一般说来,核函数的评估指标可以分为两大类:一类来自实际数据的实验验证结果;一类来自理论分析所给出的界.根据统计学习理论,核函数推广能

4、力的强弱与由该函数计算得到的分类超平面集合的VC维(Vapnik-Chervonenkisdimension)相关,VC维,泛化误差和特征空间中训练样本集与超平面的最短距离之间存在以下关系[1],(1)是特征空间中包含所有训练样本的最小超球的半径,是训练样本的个数,是特征空间的维数.因此,VC维越小,函数的推广能力越强.但遗憾的是,目前尚没有关于如何计算任意函数集的复杂性(VC维)以及推广性界的一般性理论,能够得到的只是一些估计值[1,7].所以在解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.根据有限数据的实验验证结

5、果进行分类预测性能评估是机器学习领域的一个存在较多争议的研究领域,这不仅是因为在分类模型预测性能评估体系中存在很多模型评估准则,而且还存在许多不同的模型评估方法(图1).在实践中,应用k-折交叉验证方法(k-foldCross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种情况都适用[9]第27页共27页,尤其是当确定一个学习模型对某个具体问题的解决是否真的优于另一个学习模型,就需要证明模型之间的这种性能差别不只是评估过程中所产生的偶然结果,这通常是一项给出置

6、信边界的统计实验工作.图1 分类模型预测性能评估体系文章的其它章节组织如下:第2节对模型预测性能评估的三种统计方法-k-折交叉验证、配对t测试(pairedt-test)[10]、纠正重复取样t测试(correctedresamplet-test)[11]进行了对比分析,引入并讨论了纠正重复取样t测试对模型预测性能评估的适用性;第3节提出了基于信息增益[12]的评估核函数模式识别能力的定量评估准则,并证明了该准则在一定程度上可以弥补其它评估准则的不足;第4节是实验与分析;第5节对文章内容进行了总结并对进一步研究的方向进行了展望.2模型预测性能评

7、估方法k-折交叉验证其基本思想是把样本集(其中)随机划分为k个不相交的子集,且每个子集都有个样本点.分类器T要迭代训练k次,每次都用集合中的数据进行训练,而用集合中的数据进行验证.k-折交叉验证估计出的分类器T的泛化误差率是k次验证误差率的平均值.令代表包含样本的子集,代表分类器T对样本进行分类的结果,则k-折交叉验证估计出的分类器T的泛化误差率是:第27页共27页(2)(3)定理1.给定样本集D和分类器T,分类器T真实但未知的分类误差率是p,如果在k-折交叉验证中删除D中任意的样本并不影响估计出的分类器T的泛化误差率,则k-折交叉验证评估出的

8、泛化误差率是真实误差率的无偏估计.证明:因为删除D中任意的样本并不影响的取值,所以D中样本是从样本空间中随机选取且与T相互独立,所以是满足二项分布的随

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。