基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf

基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf

ID:54018171

大小:230.03 KB

页数:6页

时间:2020-04-28

基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf_第1页
基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf_第2页
基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf_第3页
基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf_第4页
基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf_第5页
资源描述:

《基于核函数的非线性分类相关分析及其在化学模式识别中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第33卷分析化学(FENXIHUAXUE)研究简报第1期2005年1月ChineseJournaiofAnaiyticaiChemistry50~53………………………研究简报………………………基于核函数的非线性分类相关分析及其在化学模式识别中的应用*陶少辉陈德钊胡望明许光(浙江大学化工系仿真中心,杭州310027)摘要与统计分析和神经网络相比,基于结构风险最小的支持向量机有更好的分类性能。它用于非线性分类时,先将样本映射到更高维的特征空间,往往会增加复共线性与冗余信息,将影响样本分布,降低线性支持向量机分类器(LSVC)的预测性能。本研究提出非线性分类相关分析算法(NLCCA)

2、,利用核函数技术,无需了解非线性映射的算式,从特征空间的样本映像中提取分类相关成分,以消除冗余信息,改善样本分布。由此构建的NLCCA-LSVC集成分类器具有优良的预测性能。经模拟数据的测试,并实际用于两个复杂的化学模式识别问题,均取得令人满意的效果,也印证了算法的有效性。关键词核函数,非线性相关成分分析,化学模式识别,支持向量机,集成分类器!"引""言很多化学对象需用模式识别(分类)技术关联其表现特征与内在性质,如药物活性识别,物料的等级评定等。常用的模式分类技术,如统计分析、神经网络等,大多基于经验风险最小化原则,常因过拟合而影响预报性能。基于结构风险最小化原则的支持向量机(

3、supportvectormachine,SVM),理论上有衡[1]量预报性能的标准,实用效果也较好。但是,样本数据的复共线性与冗余信息也会影响SVM的分类[2][3]性能,在非线性变换后,复共线性往往会加剧。为此,本研究将基于分类相关成分分析(correiativecomponentanaiysis,CCA)提出基于核函数的非线性的CCA(noniinearcorreiativecomponentanaiysis,NL-CCA),用以消除复共线性,并与线性支持向量机分类器(iinearSVMciassifier,LSVC)相集成。经人工模拟数据的测试,并用于化学模式识别的实例,

4、均表明该集成分类器性能稳健,效果良好。#"基本原理及应用#.!"支持向量机及其性能分析Im设有两类样本集{!i,yj}i=1,!i。"为模式向量,yi。{+1,-1}是类别标号。为实现线性分类,支[1]持向量机方法将根据结构风险最小化原理,通过求解有约束二次规划问题而得到决策函数:I(f!)=sgn(<#,!>+J)=sgn(三(!iyi+J)(1)i=1其中sgn(·)为符号函数,〈·,·〉为矢量内积,与!i一0对应的样本!i即为支持向量(supportvector,SV)。此为线性支持向量机分类器(LSVC),它相当于m维空间的超平面,将样本模式划分为两类。对于非

5、线性分类,SVM采用核函数技术,即由核函数(!i,!)代替(1)式的。这相当于将m原空间"的!i非线性映射为特征空间F的映象"(!i),然后在F中对"(!i)进行线性分类。F为[4]Hiibert重建核空间,往往维数更高,甚至可能为无穷维。SVM可避免维数过高所带来的计算负担,因为映象的内积可在原模式空间中计算,即有〈"(!i),"(!j)〉=(!i,!j)(2)由此得到非线性分类决策函数为I(f!)=sgn(三(!iyi(!i,!))+J)(3)i=12003-12-22收稿;2004-06-14接受本文系国家自然科学基金资助项目(No.20276063)第1期陶少

6、辉等:基于核函数的非线性分类相关分析及其在化学模式识别中的应用51[1]满足Mercer定理的均可作为核函数(kxi,x),常用的有多项式和径向基函数等,在理论上它们的映射22性能相类似,本研究拟选用实用效果较好的径向基函数exp(-xi-x/!),!为待定的宽度参数。此为支持向量机分类器(SVC)。训练参数主要有惩罚因子C,将影响拟合精度。SV的个数nSV反映了紧靠在划分超平面附近的样本向量的多少。nSV较大,表示分类难度大,将影[1]响SVC的分类能力。预测错分率数学期望的上界将满足(4)式。E(nSV)E(Per)<(4)n-1上述SVC(或LSVC)只用于二类分类,对于多

7、类问题,需由多个SVC进行分类,并以一定策略确定[5]模式的类别,常用的有one-against-one、one-against-aII、DAGSVM等方法。2.2NLCCA算法的基本原理mT设原空间R的n个m维样本模式构成nXm维矩阵X,其第i行为第i个模式向量的转置xi。文献[4]提出的CCA算法以分类能力为序从X中提取出(rr<m)个互不相关的分类相关成分(cIassifica-tioncorreIativecomponent,CCC),即将xi映射为CCC空间的r维向量t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。