欢迎来到天天文库
浏览记录
ID:52130124
大小:387.82 KB
页数:6页
时间:2020-03-23
《红外光谱定量分析中的一种变量聚类偏最小二乘算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第43卷分析化学(FENXIHUAXUE)研究报告第7期2015年7月ChineseJournalofAnalyticalChemistry1086~tO91DOI:10.11895/j.issn.0253-3820.150205红外光谱定量分析中的一种变量聚类偏最小二乘算法毕一鸣储国海吴继忠袁凯龙吴键廖付夏骏张光新周国俊(浙江中烟工业有限责任公司,杭州310008)(浙江大学控制科学与工程学系,杭州310027)摘要偏最小二乘算法(Partialleastsquares,PLS)可以很好地解决分析数据中的变量共线性问题,在光谱分析,尤其是近/中红外及拉曼光谱的
2、定量分析中应用广泛。针对PLS存在的有效信息提取和噪声抑制问题,提出一种变量聚类重加权的PLS算法。通过对光谱的各波数变量进行聚类并分别建模,然后集成为全谱模型。通过对计算并赋予各子类不同的权重,根据对模型的贡献对变量进行重加权,从而提高算法的预测精度。汽油中的辛烷值预测和烟草中的烟碱含量预测两组近红外数据验证表明,所提出算法优于经典的PLS算法,其RMSEP在两组数据中分别降低32%和22%,在光谱数据的定量分析中具有潜在的应用优势。关键词化学计量学;偏最小二乘;定量分析;光谱分析;模型集成1引言偏最小二乘方法(Partialleastsquares,PLS)
3、可以同时实现回归建模、数据结构简化以及分析两组变量之间的相关性,能够有效地解决近红外、中红外及拉曼等光谱分析中的多变量和共线性问题,因而成为光谱分析和化学计量学中最常用的多元校正方法¨叫J。然而,偏最小二乘方法仍存在诸多不足之处,例如有效地挖掘光谱中的有效信息以及排除光谱噪声的干扰等。针对偏最小二乘方法的改进主要有两种思路,一种是通过变量选择(波数选择)的方式去除光谱中与目标物质相关度不高的变量J。变量选择通过剔除部分噪声变量来提高模型精度,然而,很多变量选择方法需要增加额外的参数来控制剔除变量的数量,这不仅增加了模型的复杂度,而且使模型过拟合的风险增大。另一种
4、改进则是使用全谱模型,通过对样本进行聚类或重采样生成若干子模型,利用子模型集成的方式保证整体模型具有更好的预测能力和鲁棒性。然而,这种方式不能提高单一子模型的模型精度,仅在建模样本数目中进行了调整。Ni等提出一种堆叠偏最小二乘(StackedPLS)算法,以邻域为单位建立子模型并叠加为全谱模型。与样本空间集成模型不同,SPLS在变量空间进行集成,可以改善单一PLS模型的预测精度。SPLS的一个不足之处在于采用等分邻域的方式划分光谱区域,使得相关性很高的波数会赋予不同的权重,从而降低了模型的合理性。本研究提出一种基于变量聚类的集成偏最小二乘算法,以聚类的方式,使相
5、似的变量(波数)划归同一子类。通过赋予各子类不同的权重,提高光谱中与待分析物质相关性较高变量的重要性,降低较低相关性变量和噪声的干扰,从而提高建模精度与模型的解释能力。利用汽油中的辛烷值预测和烟草中的烟碱预测两组近红外数据对所提算法有效性进行了验证。2模型与方法2.1PLS与变量重加权以红外光谱的定量分析为例,PLS算法通过最大化光谱矩阵与目标物质含量之间的协方差为目标,逐一求解模型中的各个潜变量。由于在求解中包含了Y的信息,因此相比主成分回归(Principal2015-03—13收稿;2015-04-07接受本文系国家自然科学基金(No.31473255)和
6、浙江省中烟科技项目基金(No.ZJZY2015C001)资助E—mail:zhougi@zjtobacco.corn第7期毕一鸣等:红外光谱定量分析中的一种变量聚类偏最小二乘算法1087componentregression,PCR),PLS的信息利用效率更高,非常适合近/中红外光谱、拉曼光谱等分析数据的处理。在经典的PLS算法中,模型(回归系数)是通过迭代计算各个权值向量得到:W=。[cov(y,1),⋯cov(y,)](1)其中,’.,为权值向量;k为常数,用以保证W为单位向量;X,⋯Xp分别为光谱矩阵的第1~P列,Y为建模物质含量。公式(1)可以改写为:W
7、=·std(Y)·[corr(y,X1)]·std(x1),⋯corr(X1),⋯corr(y,X)·std(xp)](2)由公式(2)可知,权重向量’.,受光谱矩阵与建模物质含量Y的相关性及光谱矩阵的方差两个因素影响。在与Y相关性较低但的方差较大的变量处,权重向量W仍有较高的权重值,致使模型的精度受到影响。通过归一化可以使得光谱中所有波数的方差相同,然而,这会大大增强噪声对模型的影响,在实际应用中的效果并不理想¨。由于权重向量W直接参与最终模型回归系数的计算,因此,在每次迭代中W的误差都会体现在模型回归系数中,使得PLS在面对强噪声干扰等问题时表现不佳。因此,
8、若想提高PLS算法的模型
此文档下载收益归作者所有