互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文

互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文

ID:10735521

大小:56.00 KB

页数:5页

时间:2018-07-08

互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文_第1页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文_第2页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文_第3页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文_第4页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文_第5页
资源描述:

《互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用论文【摘要】在集成框架下,提出了一种联合自助采样和基于互信息变量选择的子空间回归集成偏最小二乘算法MISEPLS。此算法的核心是通过训练集自助采样和随后计算互信息的方式来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原始变量的一个子空间得到训练。模型融合考虑了简单平均和加权平均两种方式。通过两个近红外光谱定量校正实验,与建立单模型的全谱偏最小二乘算法(PLS)和基于互信息变量选择的偏最小二乘算法(MIPLS)进行了比较。结果表明,在不增加模型复杂度的情况下,MISEPLS能建立起更精确、更稳

2、健的校正模型。【关键词】互信息,子空间,集成.freelbleorconsensus)策略为解决该类任务提供了新思路12。所谓集成就是利用多个模型来解决同一个问题。对于模型设计者,不必试图采用复杂算法建立单个复杂模型,而是利用多个简单模型某种互补,可达到同样的目标。通常,在集成框架下,需要通过某种扰动(如对样本或变量重采样)产生分散的训练子集,并建立相应的成员模型,再通过简单平均或加权平均等方式将多个成员模型整个合起来,最终产生一个所谓的集成模型。集成最早应用于模式识别,由于其呈现出的众多优势,在化学计量学领域也已受到广泛关注。文献中报道了一些有效的集成算法,如BaggingP

3、LS13,BoostingKPLS14,SubaggingPLS15,ConsensusPLS16等。与单模型算法相比,集成类算法能更充分地利用训练样本信息,因而能产生更精确和更稳健的校正模型。在集成框架下,本研究提出了一种联合自助采样和基于互信息变量选择的子空间回归集成算法MISEPLS。其主要特点是综合训练集自助采样(Bootstrap)17和互信息(Mutualinformation)18变量选择来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原变量集的一个子空间训练,因此可避免多元共线性带来的诸多问题。同时,也比较了简单平均和加权平均两种模

4、型整合(融合)方式。通过两个近红外光谱定量分析实例及与建立单模型的全谱偏最小二乘算法(PLS)、基于互信息变量选择的偏最小二乘算法(MIPLS)比较,验证了其综合性能:该算法能在不增加模型复杂度的前提下,显著提升校正模型的预测精度和稳健性。2原理与算法近红外光谱定量分析需借助校正模型。构建模型的过程即是校正,需根据校正集样本求回归系数b。不同的回归系数代表了不同的模型,具有不同的性能。在集成框架下,设计一个算法需考虑3个基本问题19:(1)成员模型类型“成员模型”即用于集成的单个模型,是与集成模型相比较而命名的。成员模型类型由基算法决定(基算法是训练成员模型的算法),所以成员模型

5、也被称为基模型。本研究采用偏最小二乘(PLS)为基算法;(2)生成多个不同的成员模型本研究用自助(Bootstrap)重采样结合基于互信息计算的变量筛选方法。互信息是信息论中的重要概念,它可作为两个变量间相关性的量度,或一个变量包含另一个变量的信息量的量度。设有随机变量x和y,它们的边缘概率分布和联合概率分布分别为Px(x),Py(x)和Pxy(x,y),这两个变量间的互信息定义为:MI(x,y)=∑Px,y(x,y)Px(x)·Py(y)Px,y(x,y)(1)可见,计算MI需先估计概率密度。一般先将x和y的取值范围细分为一定数量的小区间,并将XY平面划分为若干个方块,再通过

6、统计直方图来近似概率分布。若x和y分别表示光谱某波长(波数)处响应和浓度,则MI(x,y)表示在获知样本在该波长变量的响应后,浓度值的不确定性减少的量。与相关系数相比,互信息能兼顾变量间的线性和非线性,而光谱响应与物质浓度间的非线性是普遍存在的;自助采样又使变量间的互信息有所变化,这恰是集成建模所需的分散性,因此将互信息用在光谱集成校正中是可行的;(3)多个成员模型的融合本研究采用简单平均与加权平均两种方式。提出的MISEPLS算法主要包括以下步骤:(1)在训练样集上采用交叉验证的方式确定出最优全谱PLS模型的潜变量数Lvs(所有成员模型的潜变量数将设为这个数),并确定集成规模成

7、员模型数(M)和候选成员模型总数。根据文献20,集成超过25个成员模型并无必要。因此,本研究固定这两个参数分别为30和100,即仅30%候选成员模型用于最后集成。(2)用自法助对原训练集重采样(随机有放回采样),产生一个同样大小的当前训练集。(3)在当前训练集上,计算光谱变量和因变量(浓度)的互信息,产生互信息谱,并计算该谱的平均值(mean)和标准偏差(std.)。然后,定义阈值为:mean+1.5std.(根据前期实验研究)。通过仅保留互信息大于该阈值的变量,原光谱空间被削减

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。