欢迎来到天天文库
浏览记录
ID:34132403
大小:4.02 MB
页数:113页
时间:2019-03-03
《偏最小二乘qsar模型的建立验证与应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、隶韵大·粤硕士毕业论文万方数据偏最小二乘QSAR模型的建立验证与应用研究本研究获国家重大科学研究计划(2011CB933404)8圣费支持万方数据BUILDING,VALIDATIONANDAPPLICATIONOFPARTIALLEASTsQu剐陋sQsARMODELIIIIPlllIIIIIMIlllUIIIY2708138SoutheastUniversityForthejAcademicDegreeofMasterofMedicineBYWangMengSupervisedbyProf.MinJieSchoolofPublicHealthSouth
2、eastUniversityMay2014万方数据东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名:日期:矽Iu.1,.专东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其
3、他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文和在技术保护期限内的论文外,允许论文被查阅和借阅,可以公布(包括以电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电子信息形式刊登)授权东南大学研究生院办理。研究生签名:导师签名:尘五壁二日期:丝业弓万方数据偏最小二乘QSAR模型的建立验证与应用研究中文摘要评估各种化合物的毒效应是毒理学的重要任务。但是传统的毒理学试验代价昂贵且耗时耗力,计算毒理学方法已经被视为评估化合物潜在毒性和环境影响的有效替代方法。定量构效关系(QSAR)模型通过建立化合物
4、的结构特征参数与其生物活性(或理化性质)之间的关系构造统计学模型来完成对同类活性未知化合物的快速预测,可缩短研究时间,减少实验消耗,成为毒理学研究领域的重要研究方向。目前QSAR常用的建模方法包括线性和非线性算法。其中线性模型以其计算简单、实现方便、易于解释等优点,在QSAR模型建立中应用最为广泛。偏最小二乘回归集主成分分析、典型相关分析和多重线性回归等3种方法的优点于一身,与经典多重线性回归相比,可以有效解决QSAR模型建立中自变量数即分子结构描述符过多导致的过拟合以及描述符间的多重共线性导致的估计问题。因此,本研究系统探讨PLS.QSAR模型的建立和验
5、证的策略,以期为化合物的危险评估提供方法学支持。主要研究内容及结论如下:l、本研究基于两个实例数据探讨了全模型法、Vw法、BPVQ法、FPVQ法等四种变量选择方法下建立PLS.QSAR模型的方法和策略。最终建立拟合能力、稳定性、预测能力均较好的最优模型,以完成对有机污染物生物富集因子和纳米金属氧化物细菌毒性的预测。研究结果表明,正确的变量选择方法不但能简化模型,还提高了模型精度和综合性能。有机污染物生物富集因子QSAR研究通过BPVQ法获得最优模型,模型的拟合能力(R2=o.8000)、内部预测能力(Q2cv-0.7762)和外部验证预测能力(Q2Exf=
6、0.8242):t徽。纳米金属氧化物细菌毒性QSAR研究通过FPVQ法获得最优模型,其拟合能力(R2=0.9735)、内部预测能力(Q2CV=0.9513)和外部预测能力(Q2EⅪ=O.7748)优于以往研究。因此,针对不同数据的自变量相关性、样本量等特点,对于最终建立可解释性的最优模型需要采用不同的变量选择方法。2、同时,本研究还探讨了PLS.QSAR模型建立过程中主成分数的确定方法。本文基于有机污染物生物富集性QSAR研究和纳米金属氧化物细菌毒性QSAR研究,探讨交叉验证法单独使用及分别与限定主成分法、主成分检验法两种方法结合,确定主成分数的模型建立方
7、法。研究结果表明,传统交叉验证法确定主成分可能产生过拟合的模型,因此可以结合限定主成分法或主成分检验法建立PLS.QspLR模型。本研究获国家重大科学研究计划(2011CB933404).经x费支持1万方数据3、本研究通过统计模拟试验探讨PLS模型自变量数、样本例数及自变量间相关性等3个参数组合下与MLR、PCR相比较的拟合能力和预测能力。模拟结果显示,PLS模型的拟合能力在小样本、低相关性数据中优于MLR模型,在小样本、高相关性数据中优于PCR模型。PLS模型的预测能力在各种情况下均优于MLR模型和PCR模型。由于偏最小二乘回归的算法特点,即模拟因变量时
8、考虑潜在变量对观察变量的可解释性的基础上最大限度地利用自变量数据信
此文档下载收益归作者所有