欢迎来到天天文库
浏览记录
ID:52352846
大小:249.59 KB
页数:4页
时间:2020-03-26
《基于布尔矩阵的高价值度关联规则挖掘算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、204年第6期s。i。。dT}}j{。。R。。hdoi:10.3969/j.issn.1000—7695.2014.06.038基于布尔矩阵的高价值度关联规则挖掘算法叶世绮,孙振,赵站(暨南大学,广东广州510632)摘要:传统的挖掘算法Apriori是依据统计学中的数据显著性挖掘关联规则,需多次扫描数据库,效率较低,且忽视了数据显著性与价值性不匹配的问题。针对“大数据”下容易产生数量繁多但无效的关联规则,通过采用基于布尔矩阵挖掘关联规则的算法,只扫描一次数据库,得出布尔矩阵及相应的利润矩阵,随后根据“二八法则”设定
2、对客户最具吸引力的“最小价值度”,最终挖掘出高价值的关联规则,从而提高规则挖掘的效率及价值。关键词:关联规则;布尔矩阵;规则相关项布尔矩阵;平均利润矩阵;最小价值度中图分类号:TP301文献标志码:A文章编号:1000—7695(2014)06—0188—04High——valueDegreeAssociationRulesMiningAlgorithmBasedonBooleanmatrixYEShiqi,SUNZhen,ZHAOZhe(JinanUniversity,Guangzhou510632,China)A
3、bstract:ThetraditionalassociationrulesminingalgorithmAprioriisbasedonthesignificantminingassociationrulesinstatistics.ThealgorithmisIneficientbecauseitneedstorepeatedlyscanthedatabase.Anditalsoneglectstheproblemthatthesignificanceofdatadoesnotmatchthevalue.Oppo
4、sitelyitiseasytoproduceexcessivebutInvalidassociationrules.Thepaperusesthealgorithmbasedonbooleanmatrixtominingassociationrules.Thisalgorithmdrawsthebool—eanmatrixandthecorrespondingprofitmatrixbyscanningthedatabaseonlyonce.Then,itsetsthemostattractiveminimalde
5、greefortheclientbasedontheParetorule.Atlast,itminesthehigh—valuedegreeassociationrulesandimproveseffi—ciencyandvalue.Keywords:associationrules;booleanmatrix;booleanmatrixrelatedwiththeitemsoftherules;averageprofitmatrix;minimaldegree关联规则挖掘主要用于发现数据库中客户感兴到对客户真正具有
6、高价值的关联规则,在已有的研趣的项集之问的相互关联,是对一个对象和其它对究和实践的基础上,本文通过引入有关布尔矩阵的象的相互依存和关联关系的一种表示-41。作为数概念,构建布尔矩阵及相应的利润矩阵,最终得到据挖掘中的一个重要研究领域,关联规则得到了学具有高价值的关联规则。术界极大的关注,并在商业、企业、过程控制、政1相关概念的描述府部门及科学研究等领域都得到了广泛的应用J。关联规则的典型算法Apriori是Agrawal等人令,={i,i,⋯,i}为项目集合,由11,个在1993年提出来的,该模型需要不断地扫描事务数
7、互不相同的项目构成;D为数据库,由一组事务组据库,成本较高J,并假定数据库中的项目具有相成;事务T=(,)是一个元组,其中表示同的重要性。在实际的应用中,关联规则的挖掘事务标识符,,,。主要通过支持度和置信度两个指标来评价一个规则定义l:令,={,i:,⋯,i}为项目集合,是否有效J。通过这种方法挖掘关联规则主要存在事务的项集为,={,i:,⋯,i},且其中涉及着以下问题:首先,支持度和置信度的设定往往过到关联规则的k一项项集为Ix={i,i,⋯,i},于主观,容易造成挖掘效果不够理想;其次,R且k≤≤n,,,P={
8、,p:,⋯,}表示Agrawal等人。。提出的模型假定数据库中的项目具对应于k一项项集,中k一项单位利润集,Q=有相同的重要性,容易造成对价值原则的忽视;最{g,g,⋯,}为整个事务数据库D中对应k一后,需要不断地扫描事务数据库产生候选集的效率项项集中k一项销售数量集,Vx={VV⋯,较低。为了更加有效地挖掘高价值度关联规则,找收稿日期:201
此文档下载收益归作者所有