资源描述:
《基于PCA的决策树算法在心脏病诊断中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、总第240期计算机与数字工程Vol.37No.102009年第10期Computer&DigitalEngineering171*基于PCA的决策树算法在心脏病诊断中的应用1)2)程颖崔运涛(中国地质大学计算机学院1)武汉430074)(中国地质大学资源学院2)武汉430074)摘要主成分分析(PrincipalComponentAnalysis,PCA)可以处理大量过程参数间的关系与变化,排除次要因素,提取主要因素。文章将主成分分析和决策树C4.5算法相结合,提出一种心脏病诊断预测的新方法,该方法采用PCA
2、方法对影响心脏病诊断的众多变量进行降维处理,减少了预测模型的输入量,消除输入数据间的相关性,用C4.5算法建立心脏病诊断的预测模型。经实验证明有效的提高了C4.5算法的分类正确率,提高了心脏病诊断的正确率。关键词主成分分析决策树C4.5算法信息增益心脏病诊断中图分类号TP393ApplicationofDecisionTreeAlgorithmBasedonPCAintheApplicationofHeartDiseaseDiagnosis1)2)ChengYingCuiYuntao1)(Department
3、ofComputerScience,ChinaUniversityofGeosciences,Wuhan430074)2)(DepartmentofResource,ChinaUniversityofGeosciences,Wuhan430074)AbstractPrincipalComponentAnalysis(PCA)canhandlealargenumberofprocessparametersandchangestherelationshipbetweentheexclusionofsecondar
4、yfactors,extractionofthemainfactors.ThecombinationoftheprincipalcomponentanalysisanddecisiontreealgorithmC4.5,hasbeenusedintheheartdiseasediagnosis.Thenewforecastmeth-odfirstusePCAfordatadimensionalityreduction,reducingtheinputofthepredictionmodel.ThentheC4
5、.5algorithmhasusedtoestablishthepredictionmodeloftheheartdiseasediagnosis.TheexperimentprovedthattheresultofthismethodwasmoreaccuratethantheC4.5algorithm,anditimprovedthediagnosticaccuracyrateofheartdisease.KeywordsPCA,decisiontreealgorithmC4.5,informationg
6、ain,heartdiseasediagnosisClassNumberTP393机技术的应用,出现了一些新的集成预测方法。如1引言[1]谷琼等的基于主成分分析的GEP算法等。主成心脏病是目前世界上危害人类身体健康的主要分分析(PrincipalComponentAnalysis,PCA)是一种疾病之一,由于心脏病诊断需要多项临床检验指标,常用的统计方法,可以处理大量过程参数间的关系是典型的多因素识别问题。因此,随着计算机的普及与变化,排除次要因素,提取主要因数。决策树是一应用,借助数据挖掘方法利用临床检验指
7、标建立疾病种常用于预测模型的算法,它是通过将大量数据有诊断模型用于疾病的辅助诊断越来越受到医学界的目的地分类,从而找出潜在的、有价值的信息。重视。数据挖掘的核心技术,即算法主要有统计分析本文将统计分析中的主成分分析法(Principal方法、神经元网络、决策树方法和遗传算法等。ComponentAnalysis,PCA),和决策树C4.5算法相结随着现代科技的发展,特别是数学方法和计算合,用于心脏病的诊断中以获取更好的预测准确率。*收稿日期:2009年6月24日,修回日期:2009年7月22日作者简介:程颖,
8、女,硕士,研究方向:数据挖掘。崔运涛,男,硕士,研究方向:地学信息工程。172程颖等:基于PCA的决策树算法在心脏病诊断中的应用第37卷MIN,寻找该连续型属性的最大值,并把它赋值给2主成分分析的原理及基本思想MAX;原理:设法将原来变量重新组合成一组新的互2)设置区间[MIN,MAX]中的N个等分断点相无关的几个综合变量,同时根据实际需要从中可MAX-MINAi,它们分别是Ai=MIN+@i,其中