欢迎来到天天文库
浏览记录
ID:33982239
大小:810.14 KB
页数:60页
时间:2019-03-03
《基于pls的变量选择及其在高维数据中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于PLS的变量选择及其在高维数据中的应用VariableselectionbasedonPLSanditsapplicationonhighdimensionaldata学科专业:化工过程机械研究生:童拓鹏指导教师:宋凯副教授天津大学化工学院二零一三年六月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学
2、位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日摘要变量选择,又称特征选择,是信息与模式识别领域的研究热点之一。随着人工智能和计算机技术的迅速发展及应用,变量选择的研究领域不断拓宽,变量选择的方法研究也取得了较大的进展,基于
3、统计方法或机器学习的理论成果不断涌现,其中一些在实际工程应用中已经显示出了巨大的潜力。本文主要研究多元统计回归分析中的偏最小二乘方法用于变量选择。针对过程分析领域与生物信息领域中数据表现出来的高维特点,以基于PLS的变量选择方法和机器学习中的回归算法为基本工具,在对具体应用领域中数据的处理问题和方法加以阐述的基础上,确定了最优分析模型,并对所选择的重要变量做了初步解释,有助于认识研究对象本质或了解生产过程机理,应用结果表明了算法的有效性和实际意义。对于在线过程分析中得到的近红外光谱数据,考虑数据特点,提出基于偏最小二乘的变量加权方法,结合非线性回归分析能力强的高
4、斯过程机器学习算法,解决了在变量数远远高于样本数的情况下,出现的“信息饱和”问题。对于生物信息学中的必需基因识别问题,利用Z曲线分析的方法提取DNA序列特征,在反映基因信息的特征数众多,且存在多重相关性时,提出基于无信息变量消除的迭代特征选择方法,结合偏最小二乘分类器,进行必需基因的识别,并寻找对基因必需性影响重要的特征。关键词:变量选择偏最小二乘高斯过程Z曲线ABSTRACTVariableselection,alsoknownasFeatureSelection,isoneofresearchhotspotsoftheinformationpatternre
5、cognitionfield.Withtherapiddevelopmentandwideusedofcomputerscience,thevariableselectionstudyhasalsomadegreatprogress.Theoryandapplicationachievementsofthestatisticalmethodsandmachinelearningareemerging,someofwhichinthepracticalapplicationhasshowngreatpotential.Thisarticlefocusesonthe
6、PartialLeastSquares(PLS)forvariableselection.PLSisoneofthemostpopularmultivariatestatisticalregressionanalysismethods.Takingintoaccountthewidelyusedofvariableselectionalgorithmindifferentfield.WechooseprocessanalysisandbioinformaticsdatasetsasexamplestoverifythevalidityofPLSbasedvari
7、ableselectionmethodcombinedwithmachinelearningalgorithms.Consideringthepracticalapplication,variableselectionmethodsandmachinelearningregressionalgorithmwereusedasbasictooltohandlethoseissuesonprocessanalysisandbioinformatics.Importantvariableswereselectedandexplanationsweremadeforfu
8、rtherresearc
此文档下载收益归作者所有