欢迎来到天天文库
浏览记录
ID:25147096
大小:6.75 MB
页数:41页
时间:2018-11-18
《郭秀花--医学大数据分析策略与数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、医学大数据分析策略与数据挖掘讲座人:郭秀花博士生导师guoxiuh@ccmu.edu.cn单位:首都医科大学日期:2014年11月22日12提纲中心概况医学大数据及其分析策略1中心概况2数据挖掘软件及其实现方法3数据挖掘方法简介及其应用3医学大数据及其分析策略大数据(BigData)数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。4模拟式存量数字式存量2000年以前大部分数据是analogdata(模拟式数据)以书、报纸、录像带等存储。特点:数据量较小。2000年以后
2、digitaldata(数字式数据)大大增加以CD、DVD、硬盘等存储。特点:数据量巨大。2000年Source:ResearchersattheUniversityofSouthernCaliforniatookfouryears--1986,1993,2000and2007--andextrapolatednumbersfromroughly1,100sourcesofinformation.Credit:ToddLindemanandBrianVastag/TheWashingtonPost大数据时代的来临
3、56医学大数据的应用意义生物标志物识别利用大数据识别有关疾病发生、预后或治疗效果的生物标志物组学研究基因组学,表观组学,蛋白组学,代谢组学,糖基组学,等环境因素,个体行为与各组学关联7公共卫生监测:传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。医学大数据的应用意义8健康管理:通过可穿戴设备对个体体征数据的实时、连续监测提供个体化疾病预防和治疗方案医疗协同和临床决策支持:通过建立专用数据库,调用患者的基因数据、病历信息等大量医学参考数据,辅助疾病的诊断与治疗,实现个体化诊治原则医学大数据的
4、应用意义9可视化信息:数据与信息图像、多媒体信息可视化,更清晰有效地传达与沟通大数据包含的生物医学信息。医学大数据的应用意义10在生物医学研究领域,大数据:环境气象学数据医学影像数据基因、蛋白等组学数据大型临床资料复杂的生物和环境因素研究生物医学大数据的只要特点:高维11过去假设驱动,收集数据,分析寻找答案数据大多是结构化的,可以分析现在数据驱动,挖掘寻找问题数据多是非结构化的,难以分析。科学问题处理方式12条件正态性线性、齐性独立性足够大的样本量变量的20倍......方法多元线性回归分析Logistic回归分
5、析Cox回归分析聚类分析判别分析主成分分析因子分析广义线性模型......传统的多元统计方法难以处理和分析医学大数据高维、非线性、非高斯等数据,采用数据挖掘方法,可以提供更高的预测精度。常用的医学多元统计学应用受到制约13数据挖掘方法简介及其应用14数据挖掘概念数据挖掘:是在从大量的数据中提取隐含的、事先未知的,但又是潜在有用的信息和知识的过程。14大数据源定义研究问题模型应用建立模型模型评估数据准备提取数据15数据挖掘方法概述数据挖掘属性筛选关联分析分类预测回归预测聚类分析随机森林神经网络分类决策树分布估计聚类
6、期望最大化EMK均值聚类层次聚类支持向量机回归回归组合模型广义线性回归神经网络回归LASSO分类回归树支持向量机高维数据降维属性关联分析购物篮分析朴素贝叶斯肺结节良恶性的判定是CT图像诊断肺癌中的一个难点和关键点。在实际的临床中,肺癌被确诊时80%以上已属中晚期。16数据挖掘方法应用实例矢状位冠状位轴状位矢状位图像库冠状位图像库轴状位图像库三正交位成像应用实例171801基本信息年龄、性别等轴位纹理冠状位纹理矢状位纹理02既往史肿瘤病史粉尘接触史遗传病史吸烟史等淋巴结是否肿大边缘是否光滑是否分叶结节位置有无空泡征
7、等数据集合03影像学检查CT图像纹理04高维大数据库(变量约1000,样本336例)数据挖掘主要分类预测方法基于肺结节纹理鉴别诊断肺癌最近邻分类决策树神经网络Gradientboosting随机森林支持向量机Lasso回归1919各纹理产生30,40,50,60个子代(即纹理分别为420,560,700,840个)。每个纹理子代分布为正态分布,均值和标准差与轴位CT图像均值相近;设定每个纹理内部子代之间的相关系数为r=0.1,0.2,0.3,0.4;分别产生2组数据,设定两组各个变量均值之间的差值为d(0.01-
8、0.1)。MonteCarlo模拟分析结果2020MonteCarlo模拟分析结果纹理相关系数为0.1时,840个纹理值各预测模型拟合结果纹理相关系数为0.2时,840个纹理值各预测模型拟合结果212122支持向量机支持向量机(SupportVectorMachine,SVM)是美国Vapnik教授于1963年提出的。在解决小样本、非线性和高维模式识别问题中表现出许多优势
此文档下载收益归作者所有