欢迎来到天天文库
浏览记录
ID:25078675
大小:52.50 KB
页数:8页
时间:2018-11-18
《面向糖尿病的临床大数据分析研究与应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、面向糖尿病的临床大数据分析研究与应用第一章绪论1.1研究背景及意义近年来,一方面数据仓库技术以及海量存储设备的快速发展使得收集海量数据的能力得到质的提升,预示着大数据的时代已经到来;另一方面,随着各大医院信息化建设进程的不断推进,医院中的各生产系统如HIS(医院信息化系统)、LIS(实验室检验科信息系统)、EMR(电子病历系统)等已经积累了规模庞大的临床数据。公共的医疗资源服务日渐紧张,如何利用好收集存储的海量数据,成为数据存储价值的重要标志。在此背景下,面向医疗大数据的数据分析与挖掘技术也应运而生,并得到了快速的发展,智能医疗决策系统
2、也因此应运而生。这种数据包含了许多隐藏的知识等待被挖掘,对于辅助诊疗、提升临床医疗质量具有很大的价值。糖尿病作为一种慢性病,治疗周期长,容易引发多种并发症如肾病、眼病,病情反复等特点。糖尿病患者在治疗过程中,会产生大量的临床数据包括就诊信息、实验室检验、临床诊断信息和医嘱用药信息。这些临床数据隐藏着许多有关糖尿病诊断及治疗的规律,对于掌握糖尿病发病与治疗效果的预测有着重要的意义。通过对糖尿病临床数据的多维分析,从选择待分析的主题出发,进行对应主题的维度和粒度的设计、事实表和维表的设计,采用星型模型构造主题逻辑视图,生成针对主题的多维立方
3、体。在此基础上,利用多维分析的上卷、下钻、切片、切块等操作实现糖尿病数据的多方位展示,从而揭露数据隐含的患者群体特征、病情的变化趋势、药物疗效等关键信息。..........1.2国内外研究现状基于当前高速发展的数据处理技术,以及硬件设备的迅速更新换代,使得我们越来越有条件收集数据量巨大的数据,做好数据存储工作。面临存储的海量数据,怎么使用这些数据成为了医疗大数据领域专家学者探索的热点课题。现有的工作主要集中在使用医疗数据对患者进行聚类和分类研究[1-3]、疾病复发与基本指标之间的关联分析[4-6]以及一些中西药常用的药对组合,用药规律
4、等的发现。这对这些数据可以发现,目前的主要研究工作从以下几个方面展开:1)针对高风险人群的难以预测的问题,构建患者的分类模型,以及分析一些影响发病的相关因素2)针对疾病之间可能存在的关系的关联分析3)发现发病规律,并应于辅助诊断,生成决策树经过查阅相关资料和调研分析,得出目前主要的医疗大数据分析研究的方向和一些难点列举如表1-1:..........第二章相关技术介绍本章主要介绍本文用到的相关技术。首先介绍了数据挖掘的概念和OLAP技术,然后针对数据挖掘中的时序挖掘进行了介绍,如时间序列规整和关联分析。最后介绍了SAPBO可视化技术。2
5、.1OLAP与数据挖掘大数据常常是由结构复杂、数据量巨大、类型众多的数据构成的数据集合。为了发掘这些数据背后隐藏的知识,常有多种方法,本节介绍OLAP技术和数据挖掘技术。2.1.1OLAP技术1993年,E.F.eodd在ProvidingOLAPtoUser-Analysis中首次提出了联机分析处理(OnlineAnalyticalProcessing,OLAP)的概念,他认为OLTP(联机事务处理)己不能满足终端用户对数据库查询分析的需求,使用SQL对大型数据库进行的简单查询也不能满足终端用户决策分析的要求。因此,EF.Codd提出
6、了多维数据库和多维分析的概念,即OLAP。OLAP(联机分析处理),联机进行数据访问和统计分析,共享多维信息,是一种建立在事务操作之上的逻辑步骤,分析决策的能力强大,能够为决策管理人员提供更加复杂的数据分析能力,通过分析相关数据发现数据变化的特征、规律、趋势以及一些潜藏的重要信息。分析决策人员在分析决策过程中,往往都需要通过多角度、多层次的方式来立体的观察某些属性之间的关系。如医生想要知道今年年龄在50-59岁区间内,上海市各个区的男女患者的分布情况时,这个时候就要综合考虑临床诊断情况、地区、性别和年龄等多个维度的信息,这些供分析决策使
7、用的数据都是多维数据。多维数据被具体的看成是一个立方体,包括维度信息(Dimension)和度量值(Measure)。维度就是观察数据的角度。度量值是指衡量数据的指标值。如糖尿病患者基本信息主题,就包括性别、年龄、地区、妊娠情况等维度,也可以从各年龄段占比,性别占比等度量方式具体观察。因此,在多维分析时,对事实表、维度、维度的层次、维度的成员、度量值等的概念的理解与掌握非常重要。........2.2时序挖掘频繁模式的发现始于1993年Agrawal等学者提出的关联规则的发现研究[17],也一直是数据挖掘分析领域中的一个重要的研究课题。
8、自从Agrawal等学者提出了关联规则挖掘问题以来,诸多的学者对关联规则挖掘课题进行了大量的研究,得出了很多高效的算法,然而大多数方法都未考虑时间因素的影响。但在现实世界中,时间是数据本身固有的因素,在数据
此文档下载收益归作者所有