欢迎来到天天文库
浏览记录
ID:34346337
大小:211.55 KB
页数:25页
时间:2019-03-05
《基于主成分分析的特征提取方法研究外文翻译毕业论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、ZBRS5、本科生毕业设计外文资料翻译题专班姓基于主成分分析的特征提取方法研究电子信息工程084班童佳威指导教师所在学院周扬(讲师)信息科技学院附件1・外文资料翻译译文;2•外文原文外文译文1内核PCA算法第二部分:快速交叉验证和近红外光谱数据分类中的应用摘要:PCA算法,即NIPALS,电力法(电力),奇异值分解(SVD)和特征值分解(EVD),其内核版本是三个近红外数据系统地应用。交叉验证用于确定作为输入所需的线性判别分析(LDA)的PC因素。作为降维方法PCA、LDA的成功分类所有三个数据集。内核算法的速度比其相应的经典算法。四个经典的算
2、法,SVD的是最快的。只有少数的电脑需要时,内核功率的测量方法是最快的算法。当所有的电脑是必需的,EVD是最有效的四个内核算法,应用交叉验证时,内核的EVD相比大大降低了运行时间的经典算法。为了进一步加快交叉验证,提出了两个矩阵的更新方法。正常的交叉验证过程相比,第一种方法略有提高使用正常内核EVD的交叉验证的速度。第二种方法大大加快了交叉验证,但需要修改内核的EVD算法。1介绍近红外光谱(NIR)已成为-•种广泛使用的分析技术在制药、食品等行业。例如,在临床研究中,近红外可积极识别不同剂量的药物用于快速非破坏性测量片剂或胶囊。强大的化学计量学
3、工具,如主成分分析(PCA)经常被用来分析近红外光谱数据⑼。在以往的工作中,我们使用的PC因素作为输入的线性判别分析(LDA)二次判别分析(QDA),正规化的判别分析(RDA)的。然而,我们发现,近红外数据PCA是缓慢的,尤其是当交叉验证用于确定因素,在分类的数冃。四个经典PCA算法已被改装成快速和节省计算机内存内核・PCA的UH在本文第一部分所述的版本。在第二部分中,内核PCA算法应用于三个工业近红外数据集应用到真实的数据时,以展示他们的效率。快速的交叉验证方法的基础上最的有利内核PCA算法被提出。2理论2.1符号X。n{)xp数据矩阵行刃(
4、)(对象)和列p(变量)。Xnxp数据矩阵有n行和P列交叉验证步骤期间使用的变量。Xjn,xp临时测试集数据矩阵与耳行(左出的对象)和p列用于预测的变数在交叉验证步骤。Lpxr在X上获得PCA的的载荷矩阵。Snxr在上获得PCA的得分矩阵。Szntxr预测的得分矩阵X,。UnXi•异向量矩阵的行特征向量矩阵为X。2.2回顾内核PCA算法经典PCA算法是有效的数据集,其中有多个对象比变量。对于范围内的数据,如近红外数据,变量的数目(P)是比对象的数目5)高得多。经典的算法,然后变得很慢,需要一个大的内存空间,因为这些算法估计载荷矩阵列特征向量矩阵
5、XX(PXP)o当p高,规模较大的矩阵XX。内核算法是基于矩阵XX*(NXN的)。当P»N,矩阵XX曲规模也比较小。因此,内核算法有利于有许多变数和儿个对象(P»N)的数据集。即四个经典算法NIPALS,电力法(电力),奇异值分解(SVD)和特征值分解(EVD)被改装成自己的内核版本,在第一部分。仿真研究表明,SVD的范围内的数据,是最高效的四个经典算法,EVD是最有利的四个内核算法。内核算法给出了相同的分数,负荷和经典算法的特征值,当P>N时更快。2.3交叉验证和更新程序当PCA被用于降维方法的分类,交叉验证通常被用来确定的一些因素,如LDA
6、模型。对于小规模的数据集(即lown),交叉验证(LOO)通常被应用。在同一时I'可作为验证对象留下一个对象。其余对象用于设置进行了PCA的培训。主成分分析后,给定数量电脑因素(npc)用于建立LDA。对象的分类结果是FtlPCA-LDA的模型预测。然后另一个对象被省略了上述程序。这是重复,直到所有的对象都一度被冷落。在最后,所有的对象都被列为一次,正确分类记录。为不同数量的PC因素(npc),即所谓的分类正确率(CCR)获得,最佳的个人电脑数量由最好的分类结果,即最高CCR的决定。请注意,这里不使用交叉验证树立正确的PCA模型描述的光谱数据。
7、相反,交叉验证选择最佳数量电脑进入LDA分类模型的因素的。对于较大规模的数据集,是非常耗时的,而且,结果不乐观。每次只有一个对象是离开n很大时,剩下的很难在设置上发生变化。因此,Loo的结果通常是过于乐观,获得一个独立的测试集。你也可以使用交叉验证(莱索托)。在莱索托的对象,每次一个段被冷落,数据集X被划分成数段或删除组(NAG),例如,叫二5。每个段中包含的所有类和或多或少平等的每类对彖。它是通过随机分成组分别为每个类的对象。如果一个人随机选择的对象,而不是挑选对象的定义类,它可能会发生有一些缺失组屮没有对象。其他步骤是相似的,除了一个人离开
8、,并预测一个对象,而不是只有一个对象的段LOOo当删除组(NDG)是相等的对象的数目(n),莱索托是相同的LOOo2.4.分类可以用不同的方法,如LD
此文档下载收益归作者所有