资源描述:
《面向糖尿病的临床大数据分析研究和应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、面向糖尿病的临床大数据分析研究和应用ok3R(电子病历系统)等已经积累了规模庞大的临床数据。公共的医疗资源服务日渐紧张,如何利用好收集存储的海量数据,成为数据手机存储价值的重要标志。在此背景下,面向医疗大数据的数据分析与挖掘技术也应运而生,并得到了快速的发展,智能医疗决策系统也因此应运而生。这种数据包含了许多隐藏的知识等待被挖掘,对于辅助诊疗、提升临床医疗质量具有很大的价值。糖尿病作为一种慢性病,治疗周期长,容易引发多种并发症如肾病、眼病,病情反复等特点。糖尿病患者在治疗过程中,会产生大量的临床数据包括就诊信息
2、、实验室检验、临床诊断信息和医嘱用药信息。这些临床数据隐藏着许多有关糖尿病诊断及治疗的规律,对于掌握糖尿病发病与治疗效果的预测有着重要的意义。通过对糖尿病临床数据的多维分析,从选择待分析的主题出发,进行对应主题的维度和粒度的设计、事实表和维表的设计,采用星型模型构造主题逻辑视图,生成针对主题的多维立方体。在此基础上,利用多维分析的上卷、下钻、切片、切块等操作实现糖尿病数据的多方位展示,从而揭露数据隐含的患者群体特征、病情的变化趋势、药物疗效等关键信息。..........1.2国内外研究现状基于当前高速发展的数
3、据处理技术,以及硬件设备的迅速更新换代,使得我们越来越有条件收集数据量巨大的数据,做好数据存储工作。面临存储的海量数据,怎么使用这些数据成为了医疗大数据领域专家学者探索的热点课题。现有的工作主要集中在使用医疗数据对患者进行聚类和分类研究[1-3]、疾病复发与基本指标之间的关联分析[4-6]以及一些中西药常用的药对组合,用药规律等的发现。这对这些数据可以发现,目前的主要研究工作从以下几个方面展开:1)针对高风险人群的难以预测的问题,构建患者的分类模型,以及分析一些影响发病的相关因素2)针对疾病之间可能存在的关系的
4、关联分析3)发现发病规律,并应于辅助诊断,生成决策树经过查阅相关资料和调研分析,得出目前主要的医疗大数据分析研究的方向和一些难点列举如表1-1:..........第二章相关技术介绍本章主要介绍本文用到的相关技术。首先介绍了数据挖掘的概念和OLAP技术,然后针对数据挖掘中的时序挖掘进行了介绍,如时间序列规整和关联分析。最后介绍了SAPBO可视化技术。2.1OLAP与数据挖掘大数据常常是由结构复杂、数据量巨大、类型众多的数据构成的数据集合。为了发掘这些数据背后隐藏的知识,常有多种方法,本节介绍OLAP技术和数据挖
5、掘技术。2.1.1OLAP技术1993年,E.F.eodd在“ProvidingOLAPtoUser-Analysis”中首次提出了联机分析处理(OnlineAnalyticalProcessing,OLAP)的概念,他认为OLTP(联机事务处理)己不能满足终端用户对数据库查询分析的需求,使用SQL对大型数据库进行的简单查询也不能满足终端用户决策分析的要求。因此,EF.Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP(联机分析处理),联机进行数据访问和统计分析,共享多维信息,是一种建立在事务操作之
6、上的逻辑步骤,分析决策的能力强大,能够为决策管理人员提供[1][2][3]下一页ok3ension)和度量值(Measure)。维度就是观察数据的角度。度量值是指衡量数据的指标值。如糖尿病患者基本信息主题,就包括性别、年龄、地区、妊娠情况等维度,也可以从各年龄段占比,性别占比等度量方式具体观察。因此,在多维分析时,对事实表、维度、维度的层次、维度的成员、度量值等的概念的理解与掌握非常重要。........2.2时序挖掘频繁模式的发现始于1993年Agrawal等学者提出的关联规则的发现研究[17],也一直是数据
7、挖掘分析领域中的一个重要的研究课题。自从Agrawal等学者提出了关联规则挖掘问题以来,诸多的学者对关联规则挖掘课题进行了大量的研究,得出了很多高效的算法,然而大多数方法都未考虑时间因素的影响。但在现实世界中,时间是数据本身固有的因素,在数据中常常会发现时序语义问题。时序数据的出现使得有必要在数据挖掘中考虑时间因素,在现实中,附加上某种时序约束的规则将可以更好地描述客观现实情况,因而也会更有价值,称这样的规则为时序关联规则。时序关联规则挖掘研究[18]一文中提出了多时间粒度的时间规准,如年、月、日等多粒度时间维
8、度表示的方法。非同步多时间序列中频繁模式的发现算法[19]一文中,提出了针对多个序列之间时间不同步的问题,利用线性化分段表示和矢量形态聚类实现时间序列的特征分割与符号化转换的思想。另外在时序挖掘时,常常是对时间序列的某一个子序列进行挖掘,在时间序列相似性问题中滑动窗口的确定[20]一文中,提出了滑动窗口在时间序列相似性降维技术的应用。时序表达,在做时序挖掘时,常常需要先对事件做时序表达