欢迎来到天天文库
浏览记录
ID:51248798
大小:273.21 KB
页数:5页
时间:2020-03-22
《叠加多元校正分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第38卷分析化学(FENXIHUAXUE)研究报告第3期2010年3月ChineseJoumMofAn~icalChemistry367—371DOI:10.3724/SP.J.1096.2010.00367叠加多元校正分析倪网东满瑞林(中南大学化学化工学院,长沙410083)摘要基于多模型(模型融合)建模的思想,开发了两种新的叠加多元校正分析算法:叠加PCR(PLS)多元校正分析和叠加移动窗口PCR(PLS)多元校正分析。与一般的多模型建模方法不同的是其通过赋予光谱数据中的不同部分不同权重叠加子多元校正模型
2、。因此,其可以通过权重调节或选择变量。在消除光谱数据中常见的冗余信息的同时,避免信息遗漏的缺点,并最终提高模型的稳健性,简化了模型。对于这两个新的算法,尽管其具体步骤不同,但仍取得了相似的预测结果。本文通过两套近红外光谱文献数据计算验证了这两个新方法的优越性。关键词多模型;叠加;移动窗口;多元校正分析1引言光谱数据尤其是近红外光谱数据,经常包含成百上千个变量¨J。然而,这些变量中含有大量的冗余信息,最终会降低模型的稳健性。目前,变量或波长选择_1“是一种常用的处理冗余信息的方法,通过选择其中一个或一些变量来消
3、除这种冗余信息的影响,从而提高模型的稳健性和稳定性。然而,如果舍弃的变量中含有有用的信息,则又会导致信息遗漏,并最终影响模型的稳健性。多模型(模型融合)已经被广泛用于多元校正分析之中’。J。其思想是,合并所有模型(即叠加所有模型)的稳健性不会差于在所有模型中的最好的一个。本研究基于多模型(通过不同的权重来选择光谱数据中的变量,可在去除冗余信息影响的同时,极大地提高多元校正模型的稳健性,并简化模型。2实验部分2.1实验方法2.1.1叠加多元校正分析尽管变量选择在提高多元校正分析模型的稳健性方面起到重要的作用,但
4、是直接仅仅选取一个或一部分最有效的变量进行回归分析,往往导致信息遗漏,最终降低多元校正模型的稳健性。因此,为了充分利用光谱数据中的所有信息,同时降低冗余信息的影响,基于多模型(模型据融合)的思想,提出了一种新型算法——叠加多元校正分析(StackedPLS和StackedPCR)。首先,光谱数据(具有m个样品和P个变量)被分成凡等分,每个部分包含p/n个变量。在每个等分和目标含量Y之间应用PLS或者PCR进行普通的多元校正分析,建立一系列并行的PLS或PCR子模型。这些子多元校正模型将按不同的权重被叠加并被融
5、合成一个整体。这些权重对子多元校正模型起到评价作用。若光谱数据中一些部分与目标含量之间具有更好的线性关系,那么这些子模型就具有更好的稳健性和准确性,因此,这些子模型就在最后的多模型融合多元校正模型中具有更高的权重,反之亦然。使用这些权重的目标是使最终的叠加多元校正模型的交叉检验错误最小。方程(1)显示了权重优化过程:=ARGmin(Y—Y)(1)B∈R一~其中,ARGmin()表示使括号中变量最小,是第k个子多元校正模型(PLS和PCR)的预测值,W是第k个权重用来叠加第k个子多元校正模型。每一个子模型的权重
6、可以从普通的交叉检验获得:W:s:/∑S(2)k=12009_o89收稿;2009.10-21接受本文系国家留学基金委(No.留金字[2007]3020)资助项目}E—mail:antony2006ster@gmail.com368分析化学第38卷其中,Sk是第k个子多元校正模型交叉检验错误的倒数。此外,还可利用一个可以移动的灵活的窗口把光谱数据分成//,等分。窗口的宽度取决于所要进行多元校正分析的目标成分的谱峰的宽度(例如60nm,即30个变量)。窗口的中心以20nm波长(10个变量)的宽度从红外光谱的开始
7、移动到结束,把光谱数据分成n个部分。其后的多元校正过程如前所述。这种算法称之为叠加移动窗口多元校正分析,包含StackedmovingwindowPCR(SMWPCR)和StackedmovingwindowPLS(SMWPLS)。2.1.2选择恰当的等分数用于多模型(模型融合)校正分析通过交叉检验同时优化融合子多元校正模型的数量和叠加模型的潜在变量或主成分。RMSECV(Rootmeansquarederrorofcross.validation)和RMSEP(Rootmeansquarederorofpr
8、ediction)被用于评价模型的稳健性。2.2光谱实验数据两个真实的近红外数据被用来显示新多模型多元校正分析的优点。其中Corndata可以从http://www.eigenvector.com/Data/Data—sets.html获得,分别在m5,mp5和rap6近红外仪器的1100—2498nm波长范围内每隔2nm测定80个样品的水分、油分、蛋白质和淀粉,每个样品的光谱包含700个变量。在移
此文档下载收益归作者所有