资源描述:
《基于改进遗传算法的多维关联规则挖掘方法及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第23卷第4期Vol.23No.4重庆工学院学报(自然科学)JournalofChongqingInstituteofTechnology(NaturalScience)2009年4月Apr.20093基于改进遗传算法的多维关联规则挖掘方法及应用王仲君,程涤(武汉理工大学理学院,武汉430063)MethodandApplicationofMiningAssociationRulesBasedonImprovedGeneticAlgorithmWANGZhong2jun,CHENGDi(Dept.ofStatistics,SchoolofScience
2、,WuhanUniversityofTechnology,Wuhan430063,China)Abstract:Thispaperimprovesgeneticalgorithmandappliesitinmulti2dimensionalassociationrulemining.Anewselectionstrategybasedonimmunemechanismisproposed,randomnumberisintroduced,andauto2adaptedmethoddynamicallyandstochasticallyselecting
3、crossoverprobabilityandmutationprobabilityareused.Thenewalgorithmnotonlyrestrainsprematureconvergenceeffectively,butalsoraisesthesearchefficiencygreatly.Keywords:datamining;multi2dimensionassociationrule;geneticalgorithmAgrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后众多学者又对此进行了大量的研究,
4、引入了随机采样和并行思想,优化了原有的算法,提高了挖掘算法的效率,促进了关联规则的广泛应用.遗传算法是一种基于群体的进化算法,具有很强的随机性、鲁棒性和隐含并行性,能快速、有效地进行全局优化搜索,是处理大规模数据项目集的有效方法.本文中详细讨论了遗传算法在关联规则提取方面的应用,针对事务型数据库的特点,提出了使用实数数组的编码方法,并在此基础上,讨论了适应度函数的构造,然后,通过引入免疫机制,对选3收稿日期:2009-01-25基金项目:国家科学技术协会重点研究课题(2007DCTJ08)作者简介:王仲君(1964—),女,博士,教授,主要从事数据挖掘
5、、智能优化算法、复杂性科学、计算机仿真等方面研究.摘要:对遗传算法进行改进,并应用于多维关联规则挖掘中.在该算法中提出了一种基于免疫机制的新选择策略,并引入随机数,采用自适应方法随机动态选取交叉和变异概率.这种新算法不仅有效地抑制了早熟收敛现象,而且大大提高了搜索效率.关键词:数据挖掘;多维关联规则;遗传算法中图法分类号:TP301.6文献标识码:A文章编号:1671-0924(2009)04-0055-05例给出了新算法的具体实现过程,不仅验证了新算法的有效性和可行性,而且对数据挖掘技术在科研领域的应用进行了初步的尝试.这样庞大的数据集,无法用简单的
6、目测方法找出其规律,需要进行大量的数据挖掘.针对多维关联规则挖掘的特点,本研究中构造了求解该问题的遗传算法.2.1编码方法的确定用遗传算法进行关联规则挖掘怎样编码是要解决的首要问题.本研究中采用实数数组的编码方法.实数数组的元素个数与数据库中的字段的个数相对应,实数数组的元素值则表字段的属性1相关概念1.1关联规则关联规则挖掘是数据挖掘中一个很重要的研究课题,其目的是从大量数据中提取项集之间的关联和相互关系,广泛应用于决策支持、医疗诊断、市场策略、销售分析等许多领域.令I={i1,i2,im}是事务中全体项目组成的值.A[1]表示属性1,A[2]表示属
7、性2,,A[N]表示属性N.经此操作后,对个体的交叉、变异等操作就变成对数组的操作.转制企业科技工作者基本信息数据库属性见表1.集合,而T={t1,t2,tn}是所有事务的集合.每个事务ti包含的项集都是I的子集.在关联分析中,包含0个或多个项的集合被称为项集.关联规则是形如A]B的蕴含式,其中A
8、基本信息属性数据类型数据类型字段说明字段说明年龄integer年收入nlintegernsr性