欢迎来到天天文库
浏览记录
ID:58140180
大小:605.39 KB
页数:9页
时间:2020-04-24
《基于信息熵的兴趣度规则挖掘算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第6期模式识别与人工智能Vo1.27No.62014年6月PR&AIJune2014基于信息熵的兴趣度规则挖掘算法(中国科学院合肥智能机械研究所仿生计算与智能决策实验室合肥230031)(中国科学技术大学自动化系合肥230026)摘要传统关联规则挖掘方法通常产生海量杂乱的规则,它们对用户而言是冗余的.为解决该问题,文中提出一种基于信息熵的兴趣度规则挖掘算法.通过变量相关性分析剔除原始规则集中虚假、错误的规则,并在信息熵的基础上提出度量关联规则兴趣度的框架.该算法不依赖用户先验知识,能无偏地
2、表达数据包含的信息.在真实和仿真数据集上的实验验证该算法能有效挖掘兴趣度规则,且性能比传统算法更优.关键词知识发现,关联规则,兴趣度度量,信息熵中图法分类号TP311InterestingnessRuleMiningAlgorithmBasedonInformationEntropyJINZhou一,WANGRu.Jing(BionicComputingandlntelligentDecisionLaboratory,InstituteofIntelligentMachines,ChineseAc
3、ademyofSciences,Hefei230031)(DepartmentofAutomation,UniversityofScienceandTechnologyofChina,Hefei230026)ABSTRACTWiththedevelopmentofdatacollectionandstoragetechniques,excessiveandunorderlyrulesaregeneratedbytraditionalassociationrulemining,whichcannot
4、meetinterestofusers.Tosolvethisproblem,aninterestingnessmeasureofassociationrulesbasedoninformationentropyisproposedtomineinterestingnessassociationrules.Correlationanalysisforcategoricalvariablesisadoptedtoeliminatefalseanderroneousrulesfromtheprimit
5、iveset,andaframeworkforevaluatingtheinterestingnessdegreeofrulesbasedoninformationentropyisproposed.Sincethemethoddoesnotdependonthepriorknowledgeofusers,itcanrepresenttheinformationhiddeninthedataaccurately.Simulationresultsonbothrealandsyntheticdata
6、setsshowthattheproposedalgorithmperformsbetterthanthetraditionalalgorithms,anditdiscoversinterestingnessrulesfromlargedatabaseeficiently.KeyWordsKnowledgeDiscovery,AssociationRule,InterestingnessMeasure,InformationEntropy国家自然科学基金项目(No.31171456)资助收稿日期:
7、2012—11—29;修回日期:2013—11—20作者简介金洲(通讯作者),男,1985年生,博士研究生,主要研究方向为数据挖掘、知识发现.E-mail:manjinzhou@gmail.eom.王儒敬,男,1964年生,研究员,博士生导师,主要研究方向为知识表示与可视化、知识获取、主从推理与决策融合、复杂自适应系统.6期金洲等:基于信息熵的兴趣度规则挖掘算法1引言作为兴趣度规则可在一定程度上解决兴趣度规则评估的问题.然而对不同的兴趣度度量方法对比发现,大部分的度量方法对兴趣度规则的计算结果并不
8、一关联规则挖掘是知识发现(KnowledgeDiscovery致,甚至有矛盾的地方.Tan等研究和对比21种inData,KDD)研究领域中一个重要的研究方向,获不同的兴趣度度量方法,各种方法在不同领域数据得学术界的广泛关注,并充分应用在经济、市场和社的仿真结果显示不同的兴趣度度量方法产生的规则会学等领域.Apriori算法⋯是挖掘关联规则的重要在按兴趣度排序时结果并不一致,可见理论上无法算法,主要通过最小支持度(Suppoa)和置信度找到一种最佳的客观兴趣度度量方法能直接有效地(
此文档下载收益归作者所有