支持向量机的一般化能力与训练样本关系的研究

支持向量机的一般化能力与训练样本关系的研究

ID:21156974

大小:3.31 MB

页数:58页

时间:2018-10-20

支持向量机的一般化能力与训练样本关系的研究_第1页
支持向量机的一般化能力与训练样本关系的研究_第2页
支持向量机的一般化能力与训练样本关系的研究_第3页
支持向量机的一般化能力与训练样本关系的研究_第4页
支持向量机的一般化能力与训练样本关系的研究_第5页
资源描述:

《支持向量机的一般化能力与训练样本关系的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海交通大学硕士学位论文图像过滤。一般的互联网色情图像过滤软件主要采用网址库的形式来封锁色情网址或采用人工智能方法对接收到的中、英文信息进行分析甄别。段立娟等[14]提出一种多层次特定类型图像过滤法,即以综合肤色模型检验,支持向量机分类和最近邻方法校验的多层次图像处理框架,达到85%以上的准确率。视频字幕提取。视频字幕蕴含了丰富语义,可用于对相应视频流进行高级语义标注。庄越挺等[15]提出并实践了基于SVM的视频字幕自动定位和提取的方法。该方法首先将原始图像帧分割为N*N个子块,提取每个子块的灰度特征;然后使

2、用预先训练好的SVM分类机进行字幕子块和非字幕子块的分类;最后结合金字塔模型和后期处理过程,实现视频图像字幕区域的自动定位提取。实验表明该方法取得了良好的效果。图像分类和检索[16,17,18]。由于计算机自动抽取的图像特征和人所理解的语义间存在巨大的差距,图像检索结果难以令人满意。近年来出现了相关反馈方法,张磊等以为分类器,在每次反馈中对用户标SVM记的正例和反例样本进行学习,并根据学习所得的模型进行检索,使用由9918幅图像组成的图像库进行实验,结果表明,在有限训练样本情况下具有良好的泛化能力。SVM虽然

3、取得了巨大的成功,但仍然有一些理论上的关键问题处理的不够理想。其性能很大程度上依赖于核函数的选择,但没有很好的方法指导针对具体问题的核函数选择;训练和测试的速度和规模是另一个问题,尤其是对实时控制问题,速度是一个对应用的很大限制因素,虽然有了一定的类似SMO的比较先进的解决方案,但仍然还有许多期待解决的问题。本文讨论的学习算法是支持矢量机学习算法,因为SVM算法具有扎实的理论基础。支持矢量机是由V.Vapnik与其领导的贝尔实验室的小组[5]一起开发出来的一种新的机器学习技术。SVM的理论基础来自于Vapni

4、k等提出的统计学习理论,它的基本思想是,对于一个给定的具有有限数量训练样本的学习任务,如何在准确性(对于给定训练集)和机器容量(机器可无错误地学习任意训练集的能力,但是,对于包含矛盾样本的训练是不可以的无错误的学习的)进行折衷,以得到最佳的推广(Generalization)性能。-4-上海交通大学硕士学位论文1.3论文研究的内容和意义SVM是结构风险最小化的实现。根据VC理论,结构风险最小化只有在经验风险与VC置信度的和最小时才可以达到最小。对于线性可分的问题,因为存在无数个超平面可以把两类模式分开,此时经

5、验风险为零。但是在这些无数个经验为零的超平面中,只有一个最佳的超平面,此时可以使得期望风险最小。但是对于非线性问题,并不是这么简单。我们通过参数搜索,找出一些参数,通过增加SVM的复杂度来获得经验风险为零,但是此时的泛化能力往往并不是最优的。而在泛化能力最优时的经验风险常常并不为零,即常有经验风险的存在。有一个需要注意的问题是,对于SVM的训练存在着参数选择的问题,如何选择最佳参数是一个至今尚未在理论上给予解决的问题。对于规模较大的问题,我们要搜索到使得经验风险为零的参数几乎是不可能的。原因之一,问题较大时,

6、训练速度本身就很慢。原因之二,我们不可能对所有参数进行穷尽搜索。原因之三,即便是我们找到了经验风险为零的参数,此时的结构风险最小只是该参数下的最小,而并不一定是训练样本所蕴涵的最好的泛化能力。我们通过实验表明,结合其他分类方法,利用在经验风险,必然可以提高分类器的泛化性能。kNN模型分类器、M3分类器、GZC分类算法等都可以把经验风险降为零,因此我们就可以利用这些分类器减少SVM因经验风险而带来的结构风险,进而提高分类器的泛化性能。不论训练SVM的参数如何选择,只要有经验风险存在,就可以被其他分类器模型利用,

7、因此本算法是与SVM的训练参数无关的。本文用1NN分类算法对UCI提供的数据库的试验结果表明利用经验风险可以绝对地提高分类器的泛化性能。从而以利用经验风险来提高泛化能力成为本论文的第三章的内容,这是本论文的第一个创新点。在第四章里面,将重点讨论重复矛盾训练样本的支持向量的约简问题,这是本论文的第二个创新点。有些数据样本中,含有大量矛盾重复的样本,用这些样本训练SVM得到的支持向量中,也会出现矛盾重复的支持向量。既然是重复的,必然可以通过支持向量系数的叠加达到减少支持向量的数量的目的,从而加快测试速度。当然这种

8、约简方法仅用于含有矛盾重复的数据样本的情况,并不适和不含有矛盾重复样本的情况。训练样本的精简以及最终支持向量的精简是本论文的第三个创新点。随着数据-5-上海交通大学硕士学位论文样本的增加,两类样本之间的边界样本之外非边界样本也将增多。但是,我们知道,支持向量机实际上更多关注的是边界样本的分布情况,对于非边界样本关注较少,支持向量只分布在边界样本中就是这种情况的体现。那么,对于非边界样本,我们是否可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。