对应用统计方法评估核函数分类能力的研究.doc

对应用统计方法评估核函数分类能力的研究.doc

ID:51992710

大小:1.22 MB

页数:28页

时间:2020-03-21

对应用统计方法评估核函数分类能力的研究.doc_第1页
对应用统计方法评估核函数分类能力的研究.doc_第2页
对应用统计方法评估核函数分类能力的研究.doc_第3页
对应用统计方法评估核函数分类能力的研究.doc_第4页
对应用统计方法评估核函数分类能力的研究.doc_第5页
资源描述:

《对应用统计方法评估核函数分类能力的研究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、应用统计方法综合评估核函数分类能力的研究幕王泳b2胡包钢b2'(中国科学院自动化研究所模式识别国家逍点实验室北京100190)2(中国科学院硏究生院北京100019)摘要本文应用统计方法对支持向杲机方法屮核函数选择问题进行了研究.文中将“纠正重复取样t测试”引入到核函数选择屮,通过其与4折交叉验证、配对t测试等多种统计方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息胡益的评估核函数模式识别能力的定量评估准则,证明了该准则是传统评佔准则的非•线性函数.数值实验表明,不同模型评佔准则之间存在差异,但应用统计方法可以从这些差异中发现一些规

2、律.同时,不同统计方法之间也存在显著差异,且这种差异对模型评估的影响要大于111于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才能对不同核函数的分类能力进行客观评估.关键词核函数选择;模式识别;纠正贡复取样t测试;信息增益:非线性函数中图法分类号TP3911引言在支持向量机(SupportVectorMachines,SVMs)⑴方法中,核函数选择I•分重要.研究表明⑴,针对同一分类问题,选择不同的核函数,分类性能可能会相差很大.这主要是因为构成核函数K(x,y)的非线性映射©(x)是隐函数,口这些隐函数的类型是多样可变的.所以当人们对特定问题没有任

3、何先验知识的时候,很难确定应该选择哪一类核函数进行计算.虽然利用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所对应的特征映射可以确保任意两个不连接的有界闭集在特征空间屮线性可分巴但如何构造这类最优核至今却还缺乏行Z有效的方法.众多学者从不同的角度对核函数选择[网和构造(冋问题进行T有益的探讨,但综合性的评估研究仍是缺乏的.一般说来,核函数的评估指标可以分为两大类:一类来H实际数据的实验验证结果;一类来H理论分析所给出的界.根据统计学习理论,核函数推广能力的强弱与由该函数计算得到的分类超平面集合的VC维(Vapnik・Chervonenkisdime

4、nsion)相关,VC维力,泛化误弟£和特征空间屮训练样木集与超平瓯的最短距离了Z间存在以下关系⑴(1)/?是特征空间屮包含所有训练样本的最小超球的半径,加是训练样木的个数,〃是特征空间的维数•因此,VC维越小,函数的推广能力越强•但遗憾的是,目前锻没有关于如何计算任意函数集的复杂性(VC维)以及推广性界的一般性理论,能够得到的只是一些估计值[切.所以衣解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.根据有限数据的实验验证结果进行分类预测性能评估是机髀学习领域的一个存在较多争议的研究领域,这不仅是因为在分类模型预测性能评估体系中存在很多模型评

5、估准则,而且还存在许多不同的模型评佔方法(图1).在实践屮,应用h折交叉验证方法(R.foldCross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种情况都适用⑼,尤其是当确定一个学习模型对某个具体问题的解决是占真的优于另一个学习模型,就需要证明模型Z间的这种性能差别不只是评估过程屮所产生的偶然结果,这通常是一项给出置信边界的统计实验工作.图1分类模型预测性能评估体系文章的其它章节纟fl织如下:第2节对模型预测性能评估的三种统计方法一Q折交叉验证、配对t测试(pairedt-tes

6、t)®、纠正重复取样t测试(correctedresamplet-test)“进行了对比分析,引入并讨论了纠正重复取样t测试对模型预测性能评估的适用性;第3节提出了基于信息增益⑫的评估核函数模式识别能力的定量评估准则,并证明了该准则在一定程度上可以弥补其它评估准则的不足;第4节是实验与分析;第5节对文章内容进行了总结并对进一步研究的方向进行了展望.2模型预测性能评估方法辰折交叉验证其基本思想是把样本集£>={(兀,力)}:1(其中齐eRy.gR)随机划分为k个不相交的了集且每个了集都有加"个样木点•分类器丁要迭代训练比次,每次都用集合DDt(虫{1,2,…,灯)小

7、的数据进行训练,而用集合0屮的数据迸•行验证.4折交叉验证估计出的分类器卩的泛化误差率Errcv(7,D)是k次验证误差率Errt(7,D,)的平均值•令几)代表包含样才W=〈兀,兀〉的子集,卩(D代表分类器T对样本匕•进行分类的结果,则汕折交叉验证估计出的分类器T的泛化误羌率是:(2)K/=1二丄^J(T(DDw,vJy/)mv^D(3)定理1・给定样木集D和分类器T,分类器T真实但未知的分类误差率是p,如果在k-折交叉验证屮删除D屮任意的样木并不影响估计出的分类器卩的泛化误差率,则h折交叉验证评估出的泛化误罢率是真实误差率的无偏估计.证明:因

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。