基于特征增量的新类识别方法研究-论文.pdf

基于特征增量的新类识别方法研究-论文.pdf

ID:53029668

大小:233.96 KB

页数:4页

时间:2020-04-14

基于特征增量的新类识别方法研究-论文.pdf_第1页
基于特征增量的新类识别方法研究-论文.pdf_第2页
基于特征增量的新类识别方法研究-论文.pdf_第3页
基于特征增量的新类识别方法研究-论文.pdf_第4页
资源描述:

《基于特征增量的新类识别方法研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第15卷第3期Vo1.15。NO.32O15年3月March。2O15基于特征增量的新类识别方法研究陈秋松(福州大学经济与管理学院,福州350108)摘要:在分类应用的过程中,经常会出现新的类别,导致数据分布发生显著变化,使得原分类模型不再适用。如何识别新的类别使分类模型能适应其出现已经成为一个亟需解决的问题。本文提出基于特征增量的SVDD(支持向量数据描述)新类识别方法。该方法在SVDD算法的基础上,通过增加新特征,扩大特征空间维度从而提高模型对于新类的识别能力。在多个数据集上的实验结果表明,该方法能有效

2、识别新类,使更新后的模型具有更高的准确度。科一关键词:新类识别;支持向量数据描述;特征增量T中图分类号:TP391.4文献标志码:A文章编号:1671—1807(2015)03—0094—04技肿和y传统的分类应用是根据训练样本中学习到的映别方法。],从而弥补了新类识别时,距离度量局限射关系来对待分类样本进行预测或分类,其前提假设于原有特征空间的缺点。通过对特征空间的扩充,来产d柚是待分类样本与训练样本是服从独立同分布的。而提高模型对新类的识别能力l8。业在投诉分类、垃圾邮件检测、入侵检测等分类应用中1新类

3、识别经y常出现不属于原分类体系的类别,即新类(例如,新在分类模型进行分类过程中,待分类样本可能出业务的投诉、新的网络入侵模式等)。当待分类样本现多种类型的新类,本文只关注偏离型新类的识别。中出现新类后,待分类样本与训练样本服从独立同分从几何角度考虑,待分类样本中偏离型新类具有以下布的假设就不成立,如果继续采用原训练样本得到的3个特点:分类模型对待分类样本进行分类,那么这些属于新类1)偏离现有类别的训练样本;的样本将全部被错误分类,而这些错误可能导致严重2)类中样本数足够多;的损失。3)类中样本稠密度足够大。

4、对新类识别已有一些研究,Chang通过对非相互根据以上特点,本文的新类识别方法将分3步来排斥类别的分类问题进行讨论,提出了一种新类发现寻找符合特点的新类集合:方法nJ。并通过此方法成功的发现一物种。Golub1)描述现有各类别训练样本的球形边界;基于基因表达监测癌症分类来实现对新的癌症类发2)根据各类别的边界描述作为判决函数,从而找现[2]。AnjavonHeydebreck提出一种微阵列基因表出偏离现有类别训练样本的新类候选样本;达数据的新类发现方法】。该方法是以一系列不同3)利用新类识别算法从新类候选样

5、本集中识别的组织样本的基因表达谱为样本,在样本集中搜索基出新类及其样本。因的特定子集表达水平下的两类的区别。XieMao—1.1现有类别的边界描述qiang提出一种基于距离尺度学习的识别偏离型新类对于类别的边界描述,本文采用XX提出的支持的方法]。该方法能在缺少先验知识的前提下自动向量数据描述(SVDD)。其思想是在特征空间中寻识别新类。求包含目标类中所有训练样本的最小超球体,从而将综上,谢茂强等人是借鉴新奇点方面的研究成果目标类样本与其它样本区别开,并用中心点a和半径来进行偏离型新类的发现。通过这种方法来

6、识别,达R(R>O)来表示超球体。例如,给定目标类A的训到了一定的效果,但是这种方法是基于原训练样本的练样本集为To一{zlz∈R,i一1,2,⋯,},特征空间,并没有考虑到新增类可能出现新特征。基SVDD的优化目标是在特征空间上寻找包含目标类于此,本文提出一种基于特征增量的SVDD新类识所有样本的最小超球体,其目标函数如式(1):收稿日期:2Ol5—0l—O9作者简介:陈秋松(1989一),男,福建漳州人,福州大学经济与管理学院硕士研究生,研究方向:数据挖掘。94基于特征增量的新类识别方法研究f1,{z}

7、UX属于新类⋯1—1,{z)UX不属于新类其中,0o为用户指定的密度阈值,D(x)为稠密度函数可由如下公式(5)计算:1一D(x)一÷Ig>:IIz一zII(5)。。’一f∈X~对所有属于新类的新类样本集{z)U37根据稠密度函数升序排序,按顺序将有交集的样本集进行合并处理,从而得到连续的稠密集合。1.4新类识别性能评价标准新类识别性能的评价标准主要有两个:1)新类识别召回率。新类识别召回率一识别新类样本中实际新类样本个数/待分类样本中实际新类样本个数。2)新类识别准确率。新类识别准确率一识别新类样本中实际

8、新类样本个数/识别新类样本个数。在识别方法既定的情况下,新类识别召回率反映了样本间类别相似关系和距离关系一致的程度。对一c∑其中,n是求解时引入的Lagrange乘子,一一于新类识别来说,召回率越高说明当前模型越适于描‘述样本问的类别关系,从而识别新类。新类识别准确是松弛变量的均值,为求解式(1)时所得。采用LF率反映的是新类样本间的内聚程度,识别的准确度越(LossFunction)函数而不采用sgn()函数的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。