偏最小二乘法在癌症微阵列基因表达数据分析中的应用

偏最小二乘法在癌症微阵列基因表达数据分析中的应用

ID:32980468

大小:2.72 MB

页数:71页

时间:2019-02-18

偏最小二乘法在癌症微阵列基因表达数据分析中的应用_第1页
偏最小二乘法在癌症微阵列基因表达数据分析中的应用_第2页
偏最小二乘法在癌症微阵列基因表达数据分析中的应用_第3页
偏最小二乘法在癌症微阵列基因表达数据分析中的应用_第4页
偏最小二乘法在癌症微阵列基因表达数据分析中的应用_第5页
资源描述:

《偏最小二乘法在癌症微阵列基因表达数据分析中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第二军医大学硕士学位论文偏最小二乘法在癌症微阵列基因表达数据分析中的应用姓名:金志超申请学位级别:硕士专业:流行病与卫生统计学指导教师:贺佳20090501偏最小二乘法在癌症微阵列基因表达数据分析中的应用摘要微阵列技术彻底改变了癌症基因的检测方式,从单个基因的检测跃升为成千上万个基因同时检测,这大大提高了检测的效率,同时降低了检测成本,目前它已经是癌症研究中最常用和最有力的工具之一。但是,新的问题随之而来,在微阵列的数据环境中,变量的个数(基因的个数,p)要远远超过样本含量(样本个数,刀),出现了所谓的“大P小,z(1argeP,small刀)”问题,而且各个变量间不

2、独立,关系复杂。传统的统计方法如多元线性回归,Logistic回归以及COX模型等无法进行有效预测。在与微阵列数据有相似数据结构的计量化学领域,偏最小二乘法(PartialLeastSquaremethod,PLS)被证明是一种十分有效的回归预测模型。PLS以它的“软建模”而著称,所谓的“软建模”是指在建模过程中没有普通最小二乘所需的前提约束,如变量间相互独立无多重共线性等。随着生物信息学的发展,在本世纪初PLS引入了微阵列基因表达数据的分析,它的特点是高效的计算和统计效率、结果的可视化,同时兼有很大的灵活性和多功能性。【目的】本研究将PLS引入癌症微阵列基因表达数据

3、的分析中,探讨PLS在癌症基因表达数据分析中的各种应用,具体包括利用基于PLS的变量重要性指标(VariableImportanceinProjection,VIP)筛选差异表达基因,并且对筛选得到的部分差异表达基因进行生物学解释;由于细胞遗传学异常对肝癌的形成和发展以及早起检测有着重要的作用,本研究利用筛选得到的差异表达基因结合Fisher精确检验预测肝癌的细胞遗传学异常区域;精确的多分类方法对于多分类肿瘤的亚型有着重要作用,本研究对两种基于PLS的多分类方法的准确性和稳定性进行了全面地比较。【方法】①利用基于PLS的VIP值筛选差异表达基因;②利用①得到肝癌异常表

4、达基因,根据基因在染色体上的定位,计算每条染色体上的上调、下调基因以及正常表达基因,结合Fisher精确检验识别有统计学意义的细胞遗传学异常区域;③利用NCl60等4个肿瘤基因表达数据库,通过4种不同方法选取差异表达基因,并运用不完全交叉验证技术评价4种差异表达基因选取方法对分类结果的影响,在此基础上,选择对分类最有利的一种差异表达基因选取方法,运用完全交叉验证技术对两种基于偏最小二乘的多分类方法的准确性和稳定性进第二军医大学硕士学位论文行比较,寻找差异表达基因选取方法、分类方法、成分数选择的最佳组合。【结果】①通过VIP值有效地提取差异表达基因;②利用VIP值筛选得

5、到的差异表达基因结合Fisher精确检验能够准确预测肝癌的细胞遗传学异常区域,与传统的实验方法相比,在降低假阳性的情况下,识别效率有了很大的提高:与CGMA相比较,灵敏度有了较大提高,和LSS.CAP相比,本研究所用方法简便快速,识别了5q(Oain),17q(Loss)和21q(Loss)三个LSS.CAP未识别区域,并且避免了两个疑似假阳性区域15q(Gain)和22q(Loss)的识别;③两种基于PLS的多分类方法在经过差异基因选取后都可以达到较好的分类效果,经不完全交叉验证,VIP值法得到的差异表达基因对分类最有利,其值前200位基因和4个成分水平上两种分类方

6、法都能得到较低的误分率,这个结果从侧面反应了VIP值作为基因筛选指标的合理性;通过不同k值下的完全k倍交叉验证考察两种分类方法,结果PLS.DA在分类准确性和稳定性上都略优于PLS.LDA。【关键词】偏最小二乘法,癌症,微阵列基因表达数据,差异表达基因,细胞遗传学异常,多分类模型偏最小二乘法在癌症微阵列基因表达数据分析中的应用AbstractGenemicroarraytechnologyhasrevolutionizedthewaythatcancergenesaremonitored.Itcallscanthousandsofgenesatonetime.This

7、enhancedtheefficiencygreatlyandcutthecostofexperiments,andnowitbecomesoneofthemostpowerfulandversatiletoolsavailableincancerresearch.Butwiththedevelopmentofmicroarraytechnology,newproblemshavearisen.Underthemicroan'aysetting,thenumberofthevariables(numberofgenes,力ismuchlargerth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。