多源异构数据整合系统在医疗大数据中的应用

多源异构数据整合系统在医疗大数据中的应用

ID:28049735

大小:48.00 KB

页数:7页

时间:2018-12-07

多源异构数据整合系统在医疗大数据中的应用_第1页
多源异构数据整合系统在医疗大数据中的应用_第2页
多源异构数据整合系统在医疗大数据中的应用_第3页
多源异构数据整合系统在医疗大数据中的应用_第4页
多源异构数据整合系统在医疗大数据中的应用_第5页
资源描述:

《多源异构数据整合系统在医疗大数据中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多源异构数据整合系统在医疗大数据中的应用摘要:随着医院信息系统的快速发展,为医院带来了海量数据。对这些数据的有效利用、分析,挖掘其中隐含的信息,能为医院管理提供更好的决策支持。但如何从医院信息化进程屮产生的海量多源异构数椐屮甄选出高质量数据,是医疗大数据领域首当其冲的问题。文章在尽量不影响改变医院现有系统的基础上,利用数据中间件的形式,对多源异构数据进行清洗转换,为上层应用提供标准数据集。Abstract:Therapiddevelopmentofhospitalinformationsystemhasbroughthugeamountsofdatafor

2、thehospital.Theeffectiveuseofthesedata,analysis,andtominethehiddeninformation,canprovidebetterdecisionsupportforhospitalmanagement.Buthowtoselecthighqualitydatafromthemassivemulti-sourceheterogeneousdataintheprocessofhospitalinformationisthemostimportantprobleminthefieldofbigmedic

3、aldata.Thispaperistryingtomakeuseoftheformofdatamiddlewaretocleanandconvertmulti-sourceheterogeneousdata,andprovidethestandarddatasetfortheupperapplicationonthebasisofnotchangingtheexistinghospitalsystem.关键词:大数据;多源异构数据;模式匹配Keywords:bigdata;multi-sourceheterogeneousdata;patternmatc

4、hing中图分类号:TP311.5;P208文献标识码:A文章编号:1006-4311(2017)08-0080-030引言信息技术及互联网的高速发展和全球的数字信息资源的急剧增加,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片。在大数据时代”我们所要做的事情就是对隐藏于大数据中有价值的信息进行分析与挖掘[1],将分散的数据变为有用的信息,再加以创新和积累形成知识。只有形成了知识的数据才具有资产价值。我们面临的第一个挑战就是如何采集高质量的数据。高质量的数裾集需满足以下5种特性:精确性、一致性、完整性、同一性和实效性。精确性指数据符合规定的

5、精度,不超出误差范围;一致性指数据之间不能存在相互矛盾;完整性指数据的值不能为空;同一性指实体的标识是唯一的;时效性指数据的值反映了实际的状态。此外,还需考虑到人为因素,即数据不能是人工伪造的。数据质量问题在医疗行业屮表现得尤为突出。医院信息化在近三十年的飞速发展过程中,信息系统的建设规模越来越大,应用越来越复杂多样。这些系统因其处理的业务和采用的技术架构不同,其采集、处理、存储和交换数据的标准均存在较大的差异。从数据的结构形式来看,分为结构化数据、半结构化数据和非结构化数据。例如:PACS和心电监护系统等产生视频、咅频等以多媒体格式存储的非结构化数据;H

6、IS和LIS产生患者档案、医嘱处方、化验单等以标准表单形式存储的结构化数据;电子病历又以产生半结构化数据为主。另一方面,从信息记录的模式来看,同一实体可能在多个系统均有记录,但是其具体属性集合可能各有不同。就算是同一属性,其命名或数据更是可能在交互过程因为系统或者手工记录的原因发生错误从而存在相互矛盾冲突的地方。从以上现象我们不难看出,医疗行业中的数据呈现出一种多源异构性,而且该特征会产生严重的数裾质量问题。“失之毫厘谬以千里”,这种不良的数据会对医疗大数据的后续应用产生极为不利的影响。为解决这个问题,我们必须对这些多源??构的数据集进行收集和整合,转换为

7、新的高质量的数据集,从而为上层的大数据分析应用打下良好的基础。1系统设计如果采用传统的数据仓库策略,我们的方法简单说来可以分为以下几步:先抽取原始数据,再根据业务规则对其进行淸洗和转换,最后按标准的格式将数据装载到数据仓库巾。其简称为ELT。这种策略可以提供有力的决策支持,但是也存在一些不足之处。首先,数据仓库的策略多为离线处理,面对海量的实时数据处理,处理效率不高。其次,这种策略在抽取之前就需耍定义好规则和标准,难以应对可能随时会变更的需求。最后,如果想要在不中断在用生产系统即无增量数据产生的前提下,对海量的存量数据进行一次性的ELT,成木太高。针对以上

8、的不足,木文提出的解决方案如下。系统的结构图如图1所示。在不影响医

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。