欢迎来到天天文库
浏览记录
ID:5297153
大小:239.32 KB
页数:3页
时间:2017-12-07
《基于关联规则算法的医疗数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第32卷第2期长春理工大学学报(自然科学版)Vol.32No.22009年6月JournalofChangchunUniversityofScienceandTechnology(NaturalScienceEdition)Jun.2009基于关联规则算法的医疗数据挖掘112胡瑞娟,李岩芳,何昀(1.长春理工大学计算机科学技术学院,长春130022;2.空军航空大学,长春130022)摘要:通过研究基于两阶段频集思想的Apriori算法,针对Apriori算法的性能瓶颈提出了改进的Apriori算法,利用改进的Apriori算法对乳腺疾病数据进行挖掘,使用SQLServer2005数据挖掘工
2、具,主要建立肿瘤复发和其他属性间的关联规则。挖掘结果证明了关联规则算法在医疗数据挖掘中的有效性。关键词:数据挖掘;Apriori算法;改进的Apriori算法;乳腺疾病中图分类号:TP301.6文献标识码:A文章编号:1672-9870(2009)02-0282-03MedicalDataMiningBasedonAssociationRules112HURuijuan,LIYanfang,HEYun(1.SchoolofComputerScienceofTechnology,ChangchunUniversityofScienceandTechnology,Changchun130022;
3、2.AviationUniversityofAirForce,Changchun130022)Abstract:Thispaperstudiesontwo-stepfrequentitemsetApriorialgorithmofAssociationRules.BasedonofApriorial-gorithm'sdisadvantages,itbringsforwordimprovingmethodcalledImprovingApriorialgorithm.UsingthisImprovingApriorialgorithm,itprovidesusthedataminingfor
4、breast-cancersbySQLServer2005dataminingtools,itmainlysetsuptherelationshipbetweenbreast-cancerrecurrencesandotherattributes.TheresultsofdataminingshowsthatAssociationRulesinthemedicaldatamininghaseffectiveness.Keywords:datamining;Apriorialgorithm;ImprovingApriorialgorith;breast-cancer计算机信息技术在医学领域的应
5、用,促进了医法,可以分解为两个子问题:一是找到所有支持度学信息的数字化,使得医院数据库的信息量不断膨大于最小支持度的项集(Itemset),这些项集成为胀。目前大多数医院对数据库的处理属于医学数据频集(FrequentItemset)。二是使用第一步找到的库的低端操作,缺乏数据的集成和分析,更谈不上频集产生期望的规则。为了生成所有频集,使用了在这大量的数据资源中挖掘深层次的、隐含的、有递推的方法。其核心思想如下:价值的知识。正是在这种背景下,医疗数据挖掘应1={candidate1-itemsets}运而生[1]。1={1
6、.countminsup};本文采用关联规则方法对医院信息系统中28
7、5for(=2;1≠;++)dobegin//直到不能例乳腺疾病患者数据进行医疗数据挖掘。再生成最大项目集为止=apriori_gen(1);//含k个元素的新的候1基于关联规则的医疗数据挖掘选集foralltransactiontDdobegin1.1Apriori算法=subset(,);//事务t中包含的候选集[2]Apriori算法是由R.Agrawal等人提出的一种forallcandicatesc∈Ctdo快速挖掘算法,是一个基于两阶段频集思想的方.count++;收稿日期:20090325基金项目:吉林省科技计划项目(20030307)作者简介:胡瑞娟(1983-),女,硕士研
8、究生,主要从事数据库系统,数据仓库和数据挖掘在HIS中的应用研究,E-mail:hur-uijuan01@126.com。第2期胡瑞娟,等:基于关联规则算法的医疗数据挖掘283end针对以上两个不足,对其改进,算法的基本思={
9、.countminsup}[4]想是先找出所有的高频度1维数据项集,这些数end据项集组成1。然后1用于找出所有高频度2维数Answer=;据项集的集合2,然后2用于求出2,由此类推直
此文档下载收益归作者所有