互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用

互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用

ID:15200971

大小:40.50 KB

页数:14页

时间:2018-08-02

互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第1页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第2页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第3页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第4页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第5页
资源描述:

《互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用【摘要】在集成框架下,提出了一种联合自助采样和基于互信息变量选择的子空间回归集成偏最小二乘算法MISEPLS。此算法的核心是通过训练集自助采样和随后计算互信息的方式来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原始变量的一个子空间得到训练。模型融合考虑了简单平均和加权平均两种方式。通过两个近红外光谱定量校正实验,与建立单模型的全谱偏最小二乘算法(PLS)和基于互信息变量选择的偏最小二乘算法(MIPLS)进行了比

2、较。结果表明,在不增加模型复杂度的情况下,MISEPLS能建立起更精确、更稳健的校正模型。【关键词】互信息,子空间,集成,校正,近红外光谱  1引言  近年来,14近红外光谱(NIR)技术以其简便、快捷、低成本、无污染以及不破坏样品等优点,被越来越多地应用于石油、化工、医药、食品等领域[1~4]。近红外光谱对应分子中含氢基团的振动倍频与合频,加之各种干扰存在和物理因素影响,具有背景复杂、谱峰重叠、变动、信号弱的特点,其中的有效信息率非常低。因此,从复杂、重叠、变动的光谱信号中提取微弱的有用信息,并建立

3、校正模型是应用近红外光谱技术的难点和关键,直接决定了其可用性[5]。化学计量学算法已成为近红外光谱技术的核心技术之一[6]。具有代表性的化学计量学算法包括偏最小二乘(PLS)[7]、人工神经网络(ANN)[8,9]、支持向量机(SVM)[10]等。  传统的校正技术一般基于建立单一模型,在很多情况下,特别是当训练集较小时,单一模型的预测能力与稳健性难于达到要求[11]。起源于机器学习的集成或共识(Ensembleorconsensus)策略为解决该类任务提供了新思路[12]。所谓集成就是利用多个模型来

4、解决同一个问题。对于模型设计者,不必试图采用复杂算法建立单个复杂模型,而是利用多个简单模型某种互补,可达到同样的目标。通常,在集成框架下,需要通过某种扰动(如对样本或变量重采样)产生分散的训练子集,并建立相应的成员模型,再通过简单平均或加权平均等方式将多个成员模型整个合起来,最终产生一个所谓的集成模型。集成最早应用于模式识别,由于其呈现出的众多优势,在化学计量学领域也已受到广泛关注。文献中报道了一些有效的集成算法,如BaggingPLS[13],BoostingKPLS[14],SubaggingP

5、LS[15],ConsensusPLS[16]等。与单模型算法相比,集成类算法能更充分地利用训练样本信息,因而能产生更精确和更稳健的校正模型。14  在集成框架下,本研究提出了一种联合自助采样和基于互信息变量选择的子空间回归集成算法MISEPLS。其主要特点是综合训练集自助采样(Bootstrap)[17]和互信息(Mutualinformation)[18]变量选择来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原变量集的一个子空间训练,因此可避免多元共线性带来的诸多

6、问题。同时,也比较了简单平均和加权平均两种模型整合(融合)方式。通过两个近红外光谱定量分析实例及与建立单模型的全谱偏最小二乘算法(PLS)、基于互信息变量选择的偏最小二乘算法(MIPLS)比较,验证了其综合性能:该算法能在不增加模型复杂度的前提下,显著提升校正模型的预测精度和稳健性。  2原理与算法  近红外光谱定量分析需借助校正模型。构建模型的过程即是校正,需根据校正集样本求回归系数b。不同的回归系数代表了不同的模型,具有不同的性能。在集成框架下,设计一个算法需考虑3个基本问题[19]:(1)成员模

7、型类型“成员模型”即用于集成的单个模型,是与集成模型相比较而命名的。成员模型类型由基算法决定(基算法是训练成员模型的算法),所以成员模型也被称为基模型。本研究采用偏最小二乘(PLS)为基算法;(2)生成多个不同的成员模型本研究用自助(Bootstrap)重采样结合基于互信息计算的变量筛选方法。互信息是信息论中的重要概念,它可作为两个变量间相关性的量度,或一个变量包含另一个变量的信息量的量度。设有随机变量x和y,它们的边缘概率分布和联合概率分布分别为Px(x),14Py(x)和Pxy(x,y),这两个变

8、量间的互信息定义为:MI(x,y)=∑Px,y(x,y)Px(x)·Py(y)Px,y(x,y)(1)可见,计算MI需先估计概率密度。一般先将x和y的取值范围细分为一定数量的小区间,并将XY平面划分为若干个方块,再通过统计直方图来近似概率分布。若x和y分别表示光谱某波长(波数)处响应和浓度,则MI(x,y)表示在获知样本在该波长变量的响应后,浓度值的不确定性减少的量。与相关系数相比,互信息能兼顾变量间的线性和非线性,而光谱响应与物质浓度间的非线性是普遍

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。