欢迎来到天天文库
浏览记录
ID:17955146
大小:1.20 MB
页数:53页
时间:2018-09-11
《基于随机森林构建滤泡型甲状腺癌远处转移预测模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:R736.1G35单位代码:10159密级:公开学号:201521222硕士学位论文中文题目:基于随机森林构建滤泡型甲状腺癌远处转移预测模型英文题目:Developmentofapredictivemodelofdistantmetastasisoffollicularthyroidcarcinomabasedonrandomforest论文作者:纪宇楠指导教师:赵玉虹教授学科专业:情报学完成时间:2018年3月中国医科大学硕士学位论文中国医科大学硕士学位论文基于随机森林构建滤泡型甲状腺癌远处转移预测模型Developmento
2、fapredictivemodelofdistantmetastasisoffollicularthyroidcarcinomabasedonrandomforest论文作者纪宇楠指导教师赵玉虹教授申请学位管理学硕士培养单位医学信息学院一级学科图书情报与档案管理二级学科情报学研究方向临床决策(肿瘤学)论文起止时间2017年5月—2018年3月论文完成时间2018年3月中国医科大学(辽宁)2018年3月中国医科大学硕士学位论文中国医科大学学位论文独创性声明本人郑重声明:本论文是我个人在导师指导下独立进行的研究工作及取得的研究成果,论文中除
3、加以标注的内容外,不包含其他人或机构已经发表或撰写过的研究成果,也不包含本人为获得其他学位而使用过的成果。对本研究提供贡献的其他个人和集体均已在文中进行了明确的说明并表示谢意。本人完全意识到本声明的法律结果由本人承担。论文作者签名:日期:中国医科大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交学位论文的原件、复印件和电子版,允许学位论文被查阅和借阅。本人授权中国医科大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇
4、编学位论文。保密(),在年后解密适用本授权书。(保密:请在括号内划“√”)论文作者签名:指导教师签名:日期:日期:中国医科大学硕士学位论文摘要目的:随着影像学诊断技术的精准,甲状腺癌发病率逐年增加,其发病率为15.0/10万人。甲状腺癌的预后较好,5-10年生存率达80-95%,然而发生远处转移的患者生存率降到40%左右。目前甲状腺癌的预后研究较少,研究者对于远处转移影响预后状况的关注度不高。由于甲状腺癌发病率高、发生远处转移的患者预后差的特点,本研究选择易发生远处转移的滤泡型甲状腺癌(FollicularthyroidCarcinom
5、a,FTC)患者为研究对象,从SEER数据库中获取其预后数据,应用随机森林算法构建滤泡型甲状腺癌远处转移预测模型,辅助临床医生诊断,改善远处转移患者预后生存状况。方法:通过SEER数据库提供的SEER*Stat软件提取2004-2014年间的滤泡型甲状腺癌患者预后数据。综合参考NCCN指南、AJCC指南、SEER使用指南、CS肿瘤信息采集系统和已有文献,初步筛选出预后相关研究变量,包括社会人口特征:性别、确诊年龄、种族、婚姻状况、居住区域;肿瘤特征:肿瘤大小、患病时长、组织学类型、原位手术、淋巴结手术、肿瘤浸润程度、区域淋巴结转移和多灶
6、性。结局变量为是否发生远处转移。通过删除缺失值、数据转换、数据离散化对数据集进行初步处理后,按照约7:3的比例划分为训练集和测试集。利用SMOTE技术将训练集调整为平衡数据集。基于新训练集应用SPSS20.0选取单因素分析和logistic回归的统计分析方法和应用Rstudio的随机森林变量重要性的机器学习方法筛选特征变量,而后基于新训练集以随机森林算法构建预测模型。利用测试集,评估预测模型效能并与决策树、人工神经网络算法进行比较,评价指标有G-mean指数、特异度、灵敏度和ROC曲线下面积。结果:初步数据处理后的数据集中包含5278个
7、样本,其中发生远处转移的患者有203例占1/25是不平衡的数据集。经过SMOTE技术调整的新训练集包含5616个样本,阴阳性样本数量基本达到平衡。特征变量筛选后的高相关变量有确诊年龄、肿瘤的浸润程度、肿瘤的大小、区域淋巴结转移和组织学类型。基于随机森林构建的模型G-mean指数和ROC曲线下面积分别为0.767和0.837,优于决策树的0.367和0.565,也优于人工神经网络的0.629和0.75。结论:本研究以滤泡型甲状腺癌患者为研究对象,基于随机森林算法构建远I中国医科大学硕士学位论文处转移预测模型,G-mean指数和ROC曲线下
8、面积分别为0.767和0.837。通过SMOTE技术对不平衡训练集的调整,明显提高了阳性样本分类正确率。本研究应用的SEER数据库主要是随访数据,在未来的研究中可以加入实验室检查数据等变量,提升模型准确度,
此文档下载收益归作者所有