数据仓库中数据清洗

数据仓库中数据清洗

ID:37879222

大小:660.64 KB

页数:7页

时间:2019-06-01

数据仓库中数据清洗_第1页
数据仓库中数据清洗_第2页
数据仓库中数据清洗_第3页
数据仓库中数据清洗_第4页
数据仓库中数据清洗_第5页
资源描述:

《数据仓库中数据清洗》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据仓库中的数据清洗①②刘玉陈金雄①福州大学物理与信息工程学院,350002,福州市工业路523号②南京军区福州总医院,350025,福州市西二环北路156号关键词数据清洗二次清洗数据仓库摘要以病种分析为例,介绍了在数据仓库中数据清洗的方法——二次清洗法,二次清洗完成的工作是不同的,第一次的清洗主要负责清洗源数据中的“脏数据”,第二次清洗则负责维度的提取。1引言随着时间的发展,医院信息系统中积累了大量的业务数据,越来越多的医院选择建立数据仓库以提取其中有用的信息,用于分析和决策。病种分析就是当前比较热门的主题,可以通过病种分析主

2、题考察单病种的治愈质量、平均费用、平均住院日及单病种的病人构成情况,有利于单病种的合理限价,提高医院的竞争力。病种分析的星型结构见图1。病种分析中涉及到众多的数据,数据的准确与否直接关系着决策质量的好坏。为了能够准确的决策,必须对进入数据仓库的数据进行清洗。事实表年龄维病种维SYM_IDAGEIDSYMIDAGE_IDADD_ID性别维SEX_IDSEXID地理维CHARGE_IDADDIDCHARGE_DEPT费别维DISCHARGE_DETPCHARGEIDDOCTOR_ID数量医生维科室维平均住院日DOCTORIDDEPT

3、ID平均费用图1病种分析主题的星型结构(事实表中红色的字段为其度量)由于数据的清洗需要占用系统较多的资源,为了不影响“军卫一号”日常的处理速度,同时保证数据尽可能的准确,我们采用了“二次清洗”的方法:将源数据抽取至数据缓冲区时进行第一次的数据清洗;将数据缓冲区的数据送入数据仓库时进行第二次的清洗,两[1]次清洗的作用范围是不同的。清洗的过程见图2。170第一次清洗第二次清洗军卫一号数据缓冲区数据仓库图2数据清洗的过程2第一次清洗病种分析涉及到“军卫一号”中的5张相互关联的业务数据表,14张公用字典表,第一次清洗主要是负责清洗源表

4、中的“脏数据”,本次清洗在数据缓冲区中进行。根据“脏数据”种类的不同,有下面四种清洗的途径。[2]2.1业务数据表间关联的清洗病种分析主题中所需要的源数据来自“军卫一号”中的不同的五张表:诊断分类记录DIAGNOSTIC_CATEGORY、诊断对照记录DIAG_COMPARING、诊断记录DIAGNOSIS、住院病人主记录PAT_VISIT、门诊诊断记录CLINIC_DIAGNOSIS,这五张表可以通过相应的字段相互关联。这时,数据清洗要做的就是检查这些表间是否能够一对一的关联起来;若不能关联,则必须找出不能关联的记录,对这些记

5、录中的相关字段进行清洗。由于可以通过诊断分类记录中的键值与其余四张表中相同的字段相关联。因此,我们选定诊断分类记录作为主表,其余的四张表作为辅表,利用sql语句中的leftouterjoin来确定不能与主表建立关联的辅表中的记录。诊断记录通过病人标识PATIENT_ID、病人本次住院标识VISIT_ID和诊断序号DIAGNOSIS_NO与诊断记录中相对应的字段相关联,以获取病种的治疗天数、诊断质量、诊断类型。两表间的关联程度,可通过如下sql语句来实现:select*from(selecta.*,b.patient_idaspi

6、d,b.visit_idasvid,b.diagnosis_noasdiagnofrommedrec.diagnostic_categoryaleftouterjoinmedrec.diagnosisbona.patient_id=b.patient_idanda.visit_id=b.visit_idanda.diagsis_no=b.diagnosis_no)tt通过上述的sql语句,可以查看诊断分类记录中不能与住院病人主记录相关联的记录。171对这些不能关联的记录,不能马上将其判断为“脏数据”,还必须做具体的考虑。由于诊断

7、记录是用来记录住院病人的诊断情况的,而诊断分类记录中的记录既包含住院病人又包含门诊病人的诊断分类情况,因此,诊断分类记录中不能与诊断记录关联的记录,有可能是与门诊诊断记录CLINIC_DIAGNOSIS相关联的。这种情况下,应再次利用leftouterjoin语句,将上面的查询结果作为左表,门诊诊断记录作为右表,在删除诊断分类记录中与门诊诊断记录相关联的记录后的记录才是真正的“脏数据”。对于这些“脏数据”的处理,我们在与诊断记录中添加了一条“默认记录”,当诊断分类记录不能关联到诊断记录时,则自动关联“默认记录”中的数据。“默认记

8、录”中的具体数,采用极值法获得,即将合法的诊断记录中各字段出现频率最高的值作为“默认记录”中相应字段的默认值。2.2业务数据表与公共数据字典间的关联理论上,“军卫一号”中业务数据表凡是涉及到公用数据字典的字段,都必须将数据业务表中的相应字段作为外键与数据字典表关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。