欢迎来到天天文库
浏览记录
ID:33729658
大小:321.26 KB
页数:5页
时间:2019-02-28
《正则化最小二乘线性判别分析算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第23卷第1期江西电力职业技术学院学报Vo1.23No.12010年3月JournalofJiangxiVocationalandTechnicalCollegeofElectricityMar.2010正则化最小二乘线性判别分析算法刘遵雄,曾丽辉(华东交通大学信息工程学院。江西南昌330013)摘要:线性判别分析(LinearDiscriminantAnalysis,LDA)是用于降维和分类的方法,然而在遇到小样本问题时,由于全局散布矩阵是奇异的,所以传统的LDA方法是不适用的。为了解决LDA的这种缺点,提出了基于最小二乘线性判别分析(LeaStSquaresLinearDiscri
2、minantAnalvsis,LS-LDA)的正则化算法,在LS-LDA中分别加入关于加权矩阵的L1范数、L2范数和弹性网络的惩罚项、来解决小样本问题,使模型具有鲁棒性和稀疏性。在对回归分析、正则化方法和LS—LDA相关技术进行深入分析的基础上,构建正则化最小二乘线性判别分析框架算法,实现数据降维。结合标准文本数据集进行实验,采用KNN(I(一Nearest-Neighbor)分类器进行文本分类。实验结果表明,正则化的LS—LDA具有很好的分类性能,其中以加入了弹性网络惩罚项的LS-LDA最优。关键词:线性判别分析:最小二乘线性判别分析:正则化最小二乘线性判别分析中图分类号:TP391
3、.43文献标识码:A文章编号:1673—0097(2010)01—0035—05本文关注于正则化的最小二乘线性判别分析合了L。和L2的优点。最小二乘LDA引入了弹性网络(LeastSquaresLinearDiscriminantAnalysis,LS—LDA)的惩罚项,用于解决具有高维奇异值样本数据。通过使目标函数,该函数分别引入了Ll范数,范数和弹性用基于benchmark的文本数据来对比使用不同惩罚项网络的惩罚项,这在解决高维数据和小样本数据的相的算法的预处理的有效性。实验结果显示.提出的正则关问题上有着非常重要的意义。小样本数据是指那些化的LS—LDA方法具有很好的有效性。样本
4、数据的维数比样本个数要多的数据。比如人脸识1回归分析别、基因序列表达和文本数据都是属于小样本数据问题。经典的LDA不能用于解决此类问题是由于这些数通常情况下,用OI_S(OrdinaryLeastSquares)来解决据的全局散度矩阵是奇异矩阵。为了解决奇异值问题,线性回归问题,在0Ls计算中,先将观察值X与目标在这几年中,许多经典的LDA的推广被提出来,用来值Y中心化,每个变量的系数都包含在加权向量解决样本的奇异值问题。有子空间LDA0-21、规则化中。而可通过计算下列函数的最小值求得:LDA、正交化LDAl~、非关联LDAt~、惩罚LDAI61等。L(w)=一(1)LDA可用于数据
5、的降维上,在一个广义的条件下171,其中w=[l,1)2⋯⋯]是加权矩阵,得到的解为:LDA与最小二乘具有等价性。转换矩阵上的元素若都H)LS=(XX)一,,(2)是非零的,会使模型不具有稀疏性,而具有稀疏性的模如果测试一组不可见的观察值时.若允许出现稍型具有更好的解释性和更广的广泛性181。众所周知的有小偏差而不影响结果.那么就可以得到比OLS具有更L1范数即lasso(theLeastAbsoluteShrinkageandSelectionOperator)fgl,可为模型自动选择变量,从而产低错误的估计值。实现这种效果的最常用的方法是生稀疏模型;还有一些其他具有不同惩罚项的正则
6、化在加权向量上加一些限制条件,方法有L。范数、最小二乘方法,如lJ2正则化和P正则化。弹性网络综范数和弹性网络等。江西省教育厅科技项目(GJJ10446)收稿日期:2009—10—20作者筒介:刘遵雄(1967一),江西瑞昌人,博士,副教授,主要研究领域为模式识别及数字媒体理解,机器学习及网络性能分析江西电力职业技术学院学报第23卷在最小二乘的公式上加上W的L范数的惩罚项其中第i类的中心值为=∑,是全局的中心值,,E盖即对回归系数加以约束条件,称为lasso,。的解可通过求lasso惩罚公式的最小值得到,即:即l¨∑=∑,从定义可知S=+Js6。rtVn/-/)/ass。=argmin
7、II柑IlIl(3)2.2ULDA(UncorrelatedLinearDiscriminantAnal-用范数替代L。范数惩罚项可得岭回归公式ysis)与多元线性回归的关系(Ridgeregression)㈣,的解可通过求岭回归惩罚公经典的LDA不适合应用于文本分析,是因为文本式的最小值得到,即:数据的全局散布矩阵是奇异的。ULDA是LDA的推广,用于解决小样本问题。通过求解下列函数的最优解彬慷=argm~n』Irll+Alllli(4)来得
此文档下载收益归作者所有