基于信息熵的兴趣度规则挖掘算法-论文.pdf

基于信息熵的兴趣度规则挖掘算法-论文.pdf

ID:58140180

大小:605.39 KB

页数:9页

时间:2020-04-24

基于信息熵的兴趣度规则挖掘算法-论文.pdf_第1页
基于信息熵的兴趣度规则挖掘算法-论文.pdf_第2页
基于信息熵的兴趣度规则挖掘算法-论文.pdf_第3页
基于信息熵的兴趣度规则挖掘算法-论文.pdf_第4页
基于信息熵的兴趣度规则挖掘算法-论文.pdf_第5页
资源描述:

《基于信息熵的兴趣度规则挖掘算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第27卷第6期模式识别与人工智能Vo1.27No.62014年6月PR&AIJune2014基于信息熵的兴趣度规则挖掘算法(中国科学院合肥智能机械研究所仿生计算与智能决策实验室合肥230031)(中国科学技术大学自动化系合肥230026)摘要传统关联规则挖掘方法通常产生海量杂乱的规则,它们对用户而言是冗余的.为解决该问题,文中提出一种基于信息熵的兴趣度规则挖掘算法.通过变量相关性分析剔除原始规则集中虚假、错误的规则,并在信息熵的基础上提出度量关联规则兴趣度的框架.该算法不依赖用户先验知识,能无偏地

2、表达数据包含的信息.在真实和仿真数据集上的实验验证该算法能有效挖掘兴趣度规则,且性能比传统算法更优.关键词知识发现,关联规则,兴趣度度量,信息熵中图法分类号TP311InterestingnessRuleMiningAlgorithmBasedonInformationEntropyJINZhou一,WANGRu.Jing(BionicComputingandlntelligentDecisionLaboratory,InstituteofIntelligentMachines,ChineseAc

3、ademyofSciences,Hefei230031)(DepartmentofAutomation,UniversityofScienceandTechnologyofChina,Hefei230026)ABSTRACTWiththedevelopmentofdatacollectionandstoragetechniques,excessiveandunorderlyrulesaregeneratedbytraditionalassociationrulemining,whichcannot

4、meetinterestofusers.Tosolvethisproblem,aninterestingnessmeasureofassociationrulesbasedoninformationentropyisproposedtomineinterestingnessassociationrules.Correlationanalysisforcategoricalvariablesisadoptedtoeliminatefalseanderroneousrulesfromtheprimit

5、iveset,andaframeworkforevaluatingtheinterestingnessdegreeofrulesbasedoninformationentropyisproposed.Sincethemethoddoesnotdependonthepriorknowledgeofusers,itcanrepresenttheinformationhiddeninthedataaccurately.Simulationresultsonbothrealandsyntheticdata

6、setsshowthattheproposedalgorithmperformsbetterthanthetraditionalalgorithms,anditdiscoversinterestingnessrulesfromlargedatabaseeficiently.KeyWordsKnowledgeDiscovery,AssociationRule,InterestingnessMeasure,InformationEntropy国家自然科学基金项目(No.31171456)资助收稿日期:

7、2012—11—29;修回日期:2013—11—20作者简介金洲(通讯作者),男,1985年生,博士研究生,主要研究方向为数据挖掘、知识发现.E-mail:manjinzhou@gmail.eom.王儒敬,男,1964年生,研究员,博士生导师,主要研究方向为知识表示与可视化、知识获取、主从推理与决策融合、复杂自适应系统.6期金洲等:基于信息熵的兴趣度规则挖掘算法1引言作为兴趣度规则可在一定程度上解决兴趣度规则评估的问题.然而对不同的兴趣度度量方法对比发现,大部分的度量方法对兴趣度规则的计算结果并不

8、一关联规则挖掘是知识发现(KnowledgeDiscovery致,甚至有矛盾的地方.Tan等研究和对比21种inData,KDD)研究领域中一个重要的研究方向,获不同的兴趣度度量方法,各种方法在不同领域数据得学术界的广泛关注,并充分应用在经济、市场和社的仿真结果显示不同的兴趣度度量方法产生的规则会学等领域.Apriori算法⋯是挖掘关联规则的重要在按兴趣度排序时结果并不一致,可见理论上无法算法,主要通过最小支持度(Suppoa)和置信度找到一种最佳的客观兴趣度度量方法能直接有效地(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。