欢迎来到天天文库
浏览记录
ID:6089170
大小:31.50 KB
页数:8页
时间:2018-01-02
《数据预处理在脑卒中病例数据中应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据预处理在脑卒中病例数据中应用 摘要:利用数据预处理技术,将脑卒中发病病例信息数据中的大量信息进行处理,去除了数据中的数据不一致、冗余、错误信息等,提高了数据质量,有助于筛选出相对可靠的数据,从而有利于得出真实、准确的数据分析结果。关键词:数据预处理;数据质量;脑卒中;Excel中图分类号:TP311文献标志码:A文章编号:1006-8228(2013)12-55-02ApplicationofdatapreprocessingtechnologyinstrokepatientsinformationdatabaseYuCuila
2、n(Departmentofcomputerscience,DehongTeacher’sCollege,Luxi,Yunnan678400,China)Abstract:Datapreprocessingtechnologyisappliedtoprocesslargeamountsofinformationinstrokepatientdata,tosolvetheproblemofdatainconsistency,redundancy,errorinformation,etc.Thepreprocessingresultsim
3、provedataquality,helptoselectrelativelyreliabledata,drawthetrueandaccuratedataanalysisresults.8Keywords:datapreprocessing;dataquality;stroke;Excel0引言现实世界的数据一般是不完整的、含噪声的、不一致的,并且数据量大,多数还来自多个异构数据源。这就给后续的数据分析和数据挖掘带来极大的麻烦,甚至导致错误的结论,所以有必要对数据进行预处理,以提高数据质量,从而提高分析结果的质量。数据预处理[1-2
4、]主要是指数据的抽取、转化、和清理。抽取是指从外围系统或源系统中把数据导入;转化一般是指对数据进行统一(包括数据格式和数据编码的统一),清理是指把一些垃圾数据清理掉,保留有用数据。脑卒中是脑中风的学名,是一种突然起病的脑血液循环障碍性疾病。人们想要根据病例数据,对发病人群进行统计描述,研究脑卒中发病率与气温、气压、年龄、职业的关系,对高危人群提出预警和干预的建议方案等。本文以中国某城市四家医院2007年1月至2010年12月的脑卒中发病病例信息数据集(共61927条)为例,阐述了对这些数据进行预处理的过程。1数据预处理1.1数据说明8
5、数据来源于中国某城市四家医院2007年1月至2010年12月的脑卒中发病病例信息(每家医院一个excel数据表,分别是data1.xls、data2.xls、data3.xls、data4.xls,共有61927条记录),数据字段格式如表1所示。表1数据字段格式[Sex\&Age\&Occupation\&Timeofincidence\&Reporttime\&2\&80\&3\&02-03-1990\&03-01-2008\&1\&72\&\&03/07/2008\&20/07/2008\&1\&31\&1\&2009-9-9\&
6、2009-9-22\&2\&79\&\&2009-03-08\&2009-03-08\&2\&67\&7\&2009-3-17\&\&1\&63\&\&2009-4-9\&2009-04-09\&2\&80\&1\&03/07/2008\&04/07/2008\&2\&83\&1\&03-05-2007\&19-01-2008\&]先对数据进行预处理:根据四个数据表的Timeofincidenc(发病时间)找出2007年至2010年每年的脑卒中病人信息。以下是对四个数据表的数据预处理的过程。1.2data1.xls数据预处理⑴工作表“
7、脑卒中”中,字段Timeofincidence的值不规范,首先对它进行处理,例如将值为“18-01-2007”的格式转换为“2007-1-18”的格式,步骤如下:①选择Timeofincidence列,单击“数据”-“分列”,分割符号用“-”,目标区域到“$g$1”,使Timeofincidence列的值分割成了三列,分别放到了g、h、i列;②8单击“数据”-“自动筛选”,单击i列的“自定义”,条件为“大于或等于2007”且“小于或等于2007”,例如筛选出所有格式为“18-01-2007”的病人记录;③单击筛选出的病人记录,按ctr
8、l+A键,按ctrl+x键,新建一工作表dateformat,单击A2,按ctrl+v键,则将筛选出的全部数据剪切到另一个工作表dateformat中;④在工作表dateformat中,在单元格j2输入公式“=date(
此文档下载收益归作者所有