不平衡支持向量机的平衡方法

不平衡支持向量机的平衡方法

ID:38130782

大小:388.41 KB

页数:6页

时间:2019-05-29

不平衡支持向量机的平衡方法_第1页
不平衡支持向量机的平衡方法_第2页
不平衡支持向量机的平衡方法_第3页
不平衡支持向量机的平衡方法_第4页
不平衡支持向量机的平衡方法_第5页
资源描述:

《不平衡支持向量机的平衡方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第卷第期模式识别与人工智能年月乙不平衡支持向量机的平衡方法‘‘,“’‘‘刘万里刘三阳薛贞霞西安电子科技大学应用数学系西安“洛阳师范学院数学系洛阳“河南科技大学数学系洛阳摘要针对支持向量机中两类不平衡数据的分离超平面提出一种调整算法首先用标准的支持向量机对原始数据进行初步训练,产生一个分离超平面的法向量然后把高维样本投影到该法向量上得到一维数据最后由投影数,给出两类数据惩罚,,据的标准差以及样本容量所提供的信息因子比例再用标准的支持向量机进行第次训练从而得到一个新的分离超平面实验显示该方法的有效性,

2、即在一般情况下能平衡错分率,甚至还能减少错分率关健,,,,词不平衡数据特征提取支持向量机投影标准偏差中图法分类号·一‘”,一‘,一‘,“,夕,二,夕。。,夕,夕夕,少一,,,一,一一,,,,,,国家自然科学基金资助项目一一一一收稿日期修回日期,,,,,、,一作者简介刘万里男年生副教授博士研究生主要研究方向为模式识别机器学习最优化方法及应用刘,,,,,、,,三阳男年生教授博士生导师主要研究方向为最优化理论方法及应用薛贞爪女,,、年生博士研究生主要研究方向为支持向量机模式识别期刘万里等不平衡支持向量机

3、的平衡方法引言支持向量机简介川〔‘口已,,任一,由等人创立的支持向量机设给定样本集任为相应,一,,⋯通过引入适当的映射经在许多领域得到成功应用我们知道标准的支持的类标其中,,、‘,向量机是在假设类分布平衡样本数据大致相当的势杯将映射到高维特征空间中选取适,,,、·,前提下使用时具有较高精度然而对于不平衡数据当的核函数使得为一杯杯引入松标资〕针对不平,热,⋯,东,,,准的支持向量机的性能大大下降弛变量宁及惩罚因子求如下规划问,衡数据的挖掘现有的研究包括两方面的内容实题,验研究类分布对各种传统分类算法

4、结果的影响验,,,,。〕音证有偏性的存在比采用适当的方法重构训练客···,,,、‘,一,。,仁〕,仁〕一东誉样本集提高分类性能为了解决不平衡问题文献提出重新增加正类样本数量样本数量较少的,,⋯,,,,,类称为正类另一类称为负类用来弥补与负类的,为了解该优化问题我们建立函数,差距达到平衡作用该方法的优点是增加原有信,‘右,,一音”一东”’一息的确有改善作用但是重新增加的样本难以保证一”创,,”与原来样本同分布整体的随机性也不好保持而且,·,,,娜一。一尽乙艺艺过学习情况很可能发生文献」提出减少负类样

5、本数量来达到平衡这种做法实际上是把相邻的边界,,,、点去掉一些这自然会失去一些有用的信息随机性其中尽为乘子也难以保证文献。提出后验概率支持向量机该其对偶规划为研究是把每个样本通过后验概率赋予一个数量指·一“’。一,,一一合客标依据该指标建立优化算法用来改善不平衡数据客客一的分类精度后验概率支持向量机从理论的角度描。二一,。。,。,,,艺述比较完美但是在实际应用时后验概率的确定比较困难文献提出一种模糊支持向量机该研求得超平面的法向量为,究提出对每个样本的惩罚因子赋予一个权重从而。,,,沪‘,,‘口,

6、一艺达到平衡的目的在模糊支持向量机中惩罚权。,,,,,选取某个厂所对应的代人重的确定是该方法的关键然而作者所提出的几种,参考方法不够理想有待于进一步探讨我们认为不‘,‘。、、,,,。一,一,艺平衡数据主要是以下种情况两类数据数量差,求得判别函数为别很大象特殊疾病的诊断等两类数据数目相,,,‘,‘,‘当但是类分布差别较大如一类比较集中另一类一,艺比较分散两类数据数目和类分布差别都很大这种情况使用标准的支持向量机都不合适从有关,特征提取平衡算法的参考文献来看绝大多数的研究都是针对第种,即情况来考虑的数

7、据数目比例失衡的情况关于类〔〕分布差异的研究较少下面我们将根据文献模拟实验及结果分析、,结合文献叼〕的思想给出一种方法特征提取在使用对不平衡数据分类时偏移性存在,,的原因除了两类样本数差异外还与它们的分散程度平衡法,该方法适应于近似线性可分或非线性可分有关因为当两类训练样本数据大致相当时根据概率论,,的分类问题其步骤是按照标准的支持向量机先初知识分离超平面会向分散程度较大的类偏移,,步训练得到超平面的法向量然后把高维数据投因此仅由样本数的差异来调整不平衡数据的偏移性,,影到上得到一维数据再根据两类

8、投影数据的标是不全面的我们知道影响精度的是沿分离超,,可准差及样本容量的差异所提供的信息来确定不同类平面的法向量方向的分散程度因此用投影标,、巨’口的惩罚因子比例进而给出一种平衡算法准差来表示投影后正负类标准差分别为模式识别与人工智能卷,,图所示丫了一了万其中,了、厂别为正、负类的协方差矩阵为了探分讨分类的偏移性与样本数量和两类分散程度变化趋刊卜八厄口刀飞厅曰,势下面我们将进行两个模拟实验实验为了验证样本容量的差异对支持向量机的止飞力之乌‘,精度的影响模拟两类维正态数据如下让正类的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。