欢迎来到天天文库
浏览记录
ID:51248306
大小:983.59 KB
页数:10页
时间:2020-03-22
《化学建模与模型集群分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第43卷分析化学(FENXIHUAXUE)特约来稿第11期2015年11月ChineseJournalofAnalyticalChemistry1638~1647DOI:10.11895/~。issn.0253-3820.150566化学建模与模型集群分析云永欢邓百川梁逸曾(中南大学化学化工学院,化学计量学与智能分析仪器研究所,410083长沙)摘要本文简单介绍了化学建模与模型集群分析的思想,并列举了基于模型集群分析的思路与框架。近年来,应用于化学建模各个方面的许多新算法包括奇异样本诊断、变量选择、模型参数与评价、稳健与模型应用域。本文通过应用于不同的数据类型,包括
2、近红外光谱、定量构效关系及代谢组学数据,举例阐述模型集群分析方法的可行性与应用性,为未来开发化学建模新算法提供一个好的思路和框架。关键词化学建模;模型集群分析;采样;统计分析;综述1引言随着化学量测数据的不断累积和大数据信息处理技术,包括数据发掘和机器学习各种新方法的不断涌现,采用化学建模(Chemicalmodeling)方法进行化学知识规律发现及建立定量模型等研究得到了飞速发展。此外,在分析化学的发展过程中,由于仪器分析的飞速发展,复杂体系的快速仪器分析,包括近红外和拉曼光谱无损分析及各类波谱如质谱、激光诱导击穿光谱(LIBS)等的分析、代谢组学中核磁共振谱及各
3、种色谱分析、中药色谱指纹图谱分析等,现都已成为了分析化学的重要研究方向⋯。值得提出的是,这样的化学建模的共同特点是它们的模型都可由下述简单算式给出:Y=.厂(X)。式中,Y为含n个元素的列矢量,每个元素都表征一个样本的定性特征或定量指标,而矩阵x则为含n行的矩阵,每行为一系列表征样本属性特征(含P个元素)或一个样本的测量谱(波谱或色谱);_厂(.)为不定的函数关系,它可以是线性的,如主成分回归(PCR)或偏最小二乘(PI5);也可以是非线性的,如支撑向量机(SVM)或人工神经网络(ANN)等。其关系见图1。,删~由图1可见,此类数据体系(包括紫外、近红f—外、拉曼光
4、谱分析、定量构效关系和代谢组学数;f三三三三三兰三三兰三{据)是一类极具复杂性的体系,由于其函数关系~:一I—————-一÷———一I-厂(.)是未知的,线性或非线性无法确定,变量与Y;V非M线/A性Nl==========f的关系不明确,没有任何物理或化学定理可作为;l三三三三三三三三三三三三f基础,解空间类似美国著名统计学家GeorgeE.P.B。所说的那样,即“所有模型都是错误的,但其中图化学建模的函数关系有些是有用的(Allmodelsarewr0ng,ands0mearen·“。。relationshipotchemmodelingusefu1.)”。所以
5、,对于这样的复杂体系,找到尽量逼近的基空间,并通过有效模型评价方法及其可靠应用域的定义方法十分重要。近年来,化学与生物领域引入大量高通量分析技术,使得上述模型中的X这个行矢量变得很长,而且其中还有很多变量与无关,甚至还有干扰作用J。此外,由于目前样本数(凡)相对较少,出现了在统计学称为维数灾祸的“大P,小凡”问题,这是目前统计学及其应用领域研究的重大挑战“。对于这样的体系,很容易出现模型过拟合,建模须谨慎’m。2化学建模与模型集群分析化学计量学和化学信息学研究的一个主要Et标就在于建立一个有效并可靠的化学模型,以对未知2015~7.15收稿;2015~9-22接受本
6、文系国家自然科学基金资助项目(No.21275164)$E-mail:yizengliang@263.net—第11期云永欢等:化学建模与模型集群分析的化学样本的浓度/性质等进行预测。从上述的分析可知,这个任务不简单,由于模型完全未知,建模有点类似“瞎子摸象”的任务。而模型集群分析(Modelpopulationanalysis,MPA)川打破传统一次性建模思路,力求最大限度地利用已有样本集的信息,通过随机采样,从不同角度考察数据集的内在性质,通过对所得结果进一步统计分析,获得数据集的内在结构。从这个角度看来,模型集群分析与贝叶斯统计分析的追求后验分布有些类似。而且
7、,模型集群分析中主要是强调集群分析,强调所得的各种不同结果的分布,与一次性建模分析形成了强烈对比。基于模型集群分析的化学建模算法之构建框架示于图2。它的构建框架主要包括3个基本要素:(1)通过随机采样获取子数据集;(2)针对每个子数据集,建立一个子模型;(3)从样本空间、变量空间、参数空间或模型空间对所有建立的集群子模型的感兴趣的参数进行统计分析,获取有用的信息。l获取子数据集llBinarymatrixsamplingl43,4J-43-I蒙特卡洛采样。采样IMotelcarlosamtdingBotstrapsamplingIllIBinary二m进at制r
此文档下载收益归作者所有