欢迎来到天天文库
浏览记录
ID:57818958
大小:442.09 KB
页数:3页
时间:2020-04-05
《基于weka的数据挖掘的关联规则应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2015年12月机械设计与制造工程Dec.2015第44卷第12期MachineDesignandManufacturingEngineeringVol_44No.12DOI:10.3969/j.issn.2095—509X.2015.12.021基于weka的数据挖掘的关联规则应用研究董婷(榆林学院信息工程学院,陕西榆林719000)摘要:以榆林市采气厂的采气监测数据为例,运用weka工具进行数据分析,并通过基于weka的Apriori算法数据挖掘的关联规则应用,找出油压、进站压力、日产气量之间的关联,利用关联规
2、则分析其中存在的规律。实验结果表明,数据挖掘工具weka能够准确分析出各数据之间的关联情况。关键词:关联规则;weka;数据挖掘;Apriori算法中图分类号:TP391文献标志码:A文章编号:2095—509X(2015)12—0078—03随着信息技术的发展,产生的数据量越来越(support)、期望置信度(expectedconfidence)和作大,人们对于从数据中获取有效信息的要求也越发用度(1ift)4个参数来描述一对关联规则的属性。强烈。数据库数量的日益增多,数据类型多样化、1.2关联规则的挖掘结构复
3、杂化的趋势越发明显,迫切需要先进的技术在基于支持度一置信度框架中,同时满足用户以满足人们的需求。数据挖掘(datamining,DM)给定的最小支持度阀值与最小置信度阀值的关联技术正是基于人们对挖掘有效信息的需求而产生规则称为强关联规则。关联规则的挖掘实际上就的新技术。所谓数据挖掘就是从数据中发现趋势是在事务数据库D中找出满足用户给定的最小支和模式的过程J。学术界对于数据挖掘进行了深持度与最小置信度的强关联规则。入的研究,取得了不菲的成绩,其中关联规则算法的研究在数据挖掘算法的研究中占有举足轻重的2Apriori算
4、法地位,而关联规则算法的核心就是Apriori算法,目挖掘关联规则的重点在于产生所有频繁集。前对Apriori算法的研究也在逐渐增加。基本思路是,从1项集开始找起,产生的候选项集数据挖掘就是从多种多样的数据中发掘出潜在经过最小支持度判断产生1项频繁集,继续对1项的、有价值的、有规律的知识发现(knowledgediscov—频繁集进行组合产生2项候选项集,继续进行最小eryindatabase,KDD)的过程J,不仅如此,数据挖掘支持度判断产生2项频繁集,依次类推,直至找到还可以用于数据自身的维护。本文基于weka
5、软最大项频繁集。这里用到了Apriori算法的性质:件对数据挖掘中的关联规则应用进行研究。一个频繁项集的任一子集也应该是频繁项集。Apriori算法流程如图1所示。1数据挖掘中的关联规则挖掘Apriori算法实际上就是利用了Apriori性质在1.1关联规则主要概念、参数不断地对事务数据库进行迭代扫描,直至产生出最设,={i,i,⋯,i}是由几个不同的项目组成大频繁集的一种数据挖掘算法,在数据挖掘中具有的集合,字母表示,白勺子集,事务数据库用字母D重要作用。表示,T/D代表着一个事务,这个标识符有着唯一性。设A是一
6、个由项目组成的集合,项目A中包含3基于weka的Apriori算法数据挖掘的关数个子项目,用字母k表示,称之为k项集,项目联规则应用分析蕴含于事务中。常用置信度(confidence)、支持度榆林市采气厂每天产生大量的地下采气监测收稿日期:2015—10-09基金项目:榆林市科技局项目(2014cxy—o9)作者简介:董婷(1981一),女,陕西岐山人,榆林学院讲师,硕士,主要研究方向为软件工程。·78·2015年第44卷机械设计与制造工程89==>d=(4.87505一iflf)853)
7、在采气生产过程中,套压、进站压力、日产lift:(1.06)lev(0.02)[4]cony:(1.7)气量有着较强的关联,如果进站压力不稳定、采气7.b=(14.98一l5.35]C=(13.99一l5.42]套压过高,作业区处于不安全状态的概率很高。88==>d=(4.87505一inf)83lift:(1.05)lev(0.02)[3]conv:(1.4)4结束语8.f=(14.74—15.87]86==>d:(4.87505一本文借助图形化工具weka软件,对采集到的inf)81<
8、conf:(0。94)>lift:(1.04)lev(0.02)[3]榆林市采气厂的生产数据进行了关联分析,并快速cony:(1.41)地从采气厂的数据库中挖掘出采气过程中各个因9.f=(13.61—14.74]117==>d:(4.87505一素之间有意义的、有价值的关联规则,提高了数据inf)109lift:(1.03)lev(
此文档下载收益归作者所有