健康体检数据预处理方法研究与应用

健康体检数据预处理方法研究与应用

ID:35044619

大小:3.45 MB

页数:60页

时间:2019-03-16

健康体检数据预处理方法研究与应用_第1页
健康体检数据预处理方法研究与应用_第2页
健康体检数据预处理方法研究与应用_第3页
健康体检数据预处理方法研究与应用_第4页
健康体检数据预处理方法研究与应用_第5页
资源描述:

《健康体检数据预处理方法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201312172046密级硕士学位论文健康体检数据预处理方法研究与应用作者姓名:王培培导师姓名:林予松副教授学科门类:工学专业名称:计算机应用技术培养院系:信息工程学院完成时间:2016年5月AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterTheResearchandApplicationonPhysicalExaminationDataPreprocessingMethodsByPeipeiWan

2、gSupervisor:Prof.YusongLinComputerAppliedTechnologySchoolofInformationEngineeringMay,2016学位论文原创性声明本人巧巫声明,:所呈交的学位论文是本人在导师的指导下,独立进行研充所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或^撰写过的科研成果。对本文的研巧做出重要贡献的个人和集体,巧已在文中心明碗方式标明。本声明的法律责任由本人承担。学位论文作者:i与市

3、円期:^>年户月oHJ学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权巧属郑州大学。根据郑州大学有关巧留、使用学位论文的规定,同意学校保留或向図家有关部口或机构送交论,化许论文被背闯和借阅文的复印化和电子版;本人授杖郑州大学可臥将本学位论义的全部或部分编入特关数据库进行捡索,可W采用影印、缩印或者其他S制予段保存论文和汇縮本学位论文。本人离校后发衷、使用学位论文或与该学位论文甚接相关的学术论'文或成果时,第署名单位仍巧为郑州大学。保密论文

4、在解宵后应遵守此规化。学位论文作者:玄曰期;年^月曰摘要摘要利用医疗体检数据积累丰富且有价值的信息,可进行疾病的风险分析及个性化健康指导,预测受检者患上某种慢病的风险和概率,提醒受检者及时发现潜在疾病,为其提供健康指导及疾病治疗措施。但原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测,因此对医疗体检数据进行预处理是很重要的。为了充分完成体检数据的预处理工作,本文在传统的预处理方法的基础上从多角度提出了针对体检数据预处理的有效方法:针对信息冗余的问

5、题,提出基于压缩方法的体检数据归约,降低了体检数据预处理的时间及空间复杂度;针对体检项目不统一、异常值、重复值及缺失值较多的问题,提出基于相似重复记录和缺失值的体检数据清洗方法,完成了体检数据的清洗,解决了体检数据不一致的问题。通过删除元组、忽略不完整数据及填充技术完成基于缺失值的数据清洗;针对唯一标识码缺失的问题,提出基于线性函数的体检数据变换,实现了历年体检数据的连续性和规范性。在实现体检数据清洗时创新性的提出基于分词和权值的字段匹配算法完成相似重复记录的检测。体检数据预处理的目的是将不规范

6、的数据转换为标准数据,实现医生术语、体检结论的标准化,纠正错误信息、填补空缺值。实验结果证明:基于压缩方法的体检数据归约可大大减少体检数据的不相关及冗余信息;基于分词和权值的字段匹配算法在召回率、正确率和F-测度值上分别高于传统算法6.23%、5.44%和5.84%,说明改进算法在检测相似重复记录上的准确性高于传统的算法;验证了经过基于线性函数的体检数据变换成功的给体检者添加唯一标识码。最后,开发了体检数据查询系统,实现了对预处理后体检数据的查询工作,将体检者的各项指标进行可视化展示。关键词:体

7、检数据预处理数据清洗可视化IAbstractAbstractThemedicalphysicalexaminationdatahasaccumulatedrichandvaluableinformation,itcanbeusedtoanalyzetheriskofdiseaseandpersonalizedhealthguidanceandtopredicttheriskandprobabilityofsomechronicdiseases,andtoremindthesubjecttodis

8、coverpotentialdiseaseintime,toprovidehealthguidanceanddiseasetreatmentmeasuresforPhysicalexaminationperson.But,theoriginalphysicalexaminationdatahasmanyproblems,includingambiguity,noise,incompleteandredundancyinformation,soitcannotbeusedfordiseaseris

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。