基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建

基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建

ID:17660074

大小:2.74 MB

页数:153页

时间:2018-09-04

基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建_第1页
基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建_第2页
基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建_第3页
基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建_第4页
基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建_第5页
资源描述:

《基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201311270157密级公开博士学位论文基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建作者姓名:史健翔导师姓名:张建营教授学科门类:医学专业名称:流行病与卫生统计学培养院系:公共卫生学院完成时间:2018年3月AthesissubmittedtoZhengzhouUniversityforthedegreeofDoctorSystematicdiscoveryofbiomarkersandconstructionofpredictivemodelsfornon-smallcelllungcancerbyusingbioinformatic

2、techniquesByJianxiangShiSupervisor:Prof.Jian-YingZhangDepartmentofEpidemiologyandBiostatisticsCollegeofPublicHealthMarch2018本课题受以下基金项目支持1.2016年度河南省科技攻关项目(中原学者):基于精准医学的肿瘤早期免疫诊断研究;项目编号:1621015100062.2016年河南省重大科技专项:基于精准医学的常见恶性肿瘤早期免疫和分子诊断关键技术研发和应用;项目编号:161100311400摘要背景和目的在全球范围内,肺癌发病率和死亡率均居于恶性肿瘤首位,

3、其中约85%肺癌为非小细胞肺癌(non-smallcelllungcancer,NSCLC)。目前尚缺乏有效的早期诊断方法,很多肺癌患者初诊时已处于中晚期,错过了最佳治疗时间。高通量测序技术和分析方法的不断发展完善,为研究肺癌肿瘤标志物提供了新的思路和方法。肿瘤的形成是一个多基因参与、多因素相互作用、多阶段发展的复杂的生物学过程,这个过程涉及到原癌基因突变、转录本表达谱改变以及蛋白质结构、功能或表达量异常。通过高通量测序技术从转录组水平来深入研究肺癌的分子学机制,可为肺癌早期诊断及靶向治疗提供理论依据。材料和方法本研究对两大公共数据库(GEO和ArrayExpress)进行了系统检

4、索,共纳入了3个与肺癌相关转录组高通量测序(RNAsequencing,RNA-seq)数据和两个肺癌相关的TCGARNA-seq数据(LUAD和LUSC),根据目前主流研究推荐重新搭建了RNA-seq数据分析流程,对3个GEO数据中的2个原始数据重新进行标准化流程分析,得到了转录组基因计数文件;对于2个肺癌相关的TCGA数据,由于没有获取原始测序文件的权限,因此直接利用GDC的API下载了TCGA提供的LUAD和LUSC转录组表达计数(counts)表达矩阵。随后对五个数据集进行了合并,利用DESeq2和edgeR进行差异表达分析,进而利用limma程序包去除批次效应(batch

5、effect)并利用DESeq2程序包中vst功能进行正态化转换,获得可用于后续WGCNA和机器学习的基因表达矩阵。使用加权基因共表达网络分析(WeightedGeneCo-expressionNetworkAnalysis,WGCNA)方法,对1327例NSCLC组织和231例癌旁正常对照的基因转录组表达谱构建基因共表达网络、划分基因模块并寻找与NSCLC密切相关的基因模块,对与NSCLC密切相关的模块进行基因本体(GeneOntology,GO)和KEGG通路分析。将基因差异表达分析得出的结果与WGCNA结果进行联合分析,可以得到一批与NSCLC密切相关的差异表达基因,随后从去

6、除批次效应并进行I正态化转换的转录组表达数据中获取这些基因的表达数据,利用十折交叉验证结合机器学习的方法,构建NSCLC预测模型,在验证组对预测模型效果进行评价。结果DESeq2和edgeR程序包差异表达基因分析结果显示,当差异表达基因定义为

7、log2FC

8、>1且校正P<0.01时,共有2956个基因在NSCLC中高表达,其中2124个基因为蛋白编码基因(mRNA),254个基因为lncRNA,578个基因为其他类型基因;共有1790个基因低表达,其中1565个基因为mRNA,96个为lncRNA,129个基因为其他类型基因。WGCNA网络中共划分了39个基因模块,其中2个模块与非

9、小细胞肺癌呈强相关(宝石绿模块R2=0.60,蓝色模块R2=-0.79,均有P<0.001),其中宝石绿模块与NSCLC最为密切。对宝石绿模块中基因的GO分析结果显示,这些基因为核染色体、染色体、中心体、微管组织中心、细胞骨架、微管、微管细胞骨架等组分,DNA结合、转录调控、结合ATP等生物学功能,参与增殖、细胞骨架和微观组织、有丝分裂细胞周期、核分裂、姐妹染色体分离、DNA代谢过程、DNA复制、DNA修复以及细胞DNA损伤刺激反应等生物学过程;KEGG通路分析显示宝

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。