发掘多值属性的关联规则

发掘多值属性的关联规则

ID:14216983

大小:52.00 KB

页数:13页

时间:2018-07-26

发掘多值属性的关联规则_第1页
发掘多值属性的关联规则_第2页
发掘多值属性的关联规则_第3页
发掘多值属性的关联规则_第4页
发掘多值属性的关联规则_第5页
资源描述:

《发掘多值属性的关联规则》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、发掘多值属性的关联规则张朝晖陆玉昌张 钹(清华大学计算机科学与技术系北京100084)(清华大学智能技术与系统国家重点实验室北京100084)摘要 属性值可以取布尔量或多值量.从以布尔量描述的数据中发掘关联规则已经有比较成熟的系统和方法,而对于多值量则不然.将多值量的数据转化为布尔型的数据是一条方便、有效的途径.提出一种算法,根据数据本身的情况决定多值量的划分,进而将划分后的区段映射为布尔量,在此基础上可发掘容易理解且具有概括性的、有效的关联规则.关键词 数据采掘,关联规则,聚类算法.中图法分类号 TP311当今世界,数据每天都

2、在迅猛地增长.据估计,全世界的信息量每20个月翻一番.人们保存如此大量的数据,一是因为计算机技术的发展使之变得方便可行,二是因为这些数据有巨大的潜在作用.然而,如何有效地使用这些数据却成为一个问题,因为常常是数据丰富而知识缺乏,利用当前的数据库技术并不能很好地发挥这些数据的作用.数据采掘(DataMining)是数据库中知识发现KDD(knowledgediscoveryindatabases)的核心,它为大量数据的利用提供了有效的工具.自从1989年第1届KDD专题研讨会举办以来,数据采掘的研究方兴未艾.从1995年开始,每年

3、举办一次的KDD国际会议,将KDD方面的研究推向了高潮.KDD可以定义如下[1]:从数据中得出新的、有效的、有潜在用途的、可理解的模式的非平凡过程.关联规则[2]是当前数据采掘研究的主要模式之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系.下面是一个直观的关联规则的例子:在计算机配件商店中,70%的包含键盘的交易中包含鼠标,在所有交易中,有6%同时包含这两种物品.规则表示为键盘鼠标(可信度70%,支持度6%)关联规则可以分为两种:布尔型关联规则和多值关联规则.[3]许多文献[2,5

4、~8]都讨论了发掘布尔型关联规则问题[4]BARP(Booleanassociationrulesproblem),它可以看作是发掘多值关联规则问题QARP(quantitativeassociationrulesproblem)的基础和特例,是在属性值为布尔量的关系表中寻找属性值为“1”的属性之间的关系.多值属性可分为数量属性(QuantitativeAttribute),如年龄、价格等;类别属性(CategoricalAttribute),如品牌、制造商等.QARP比较复杂,一种自然的想法是将它转换为BARP.当全部属性的取

5、值数量都是有限的时候,只需将每个属性值映射为一个布尔型属性即可.当属性的取值范围很宽时,则需将其分为若干区段,然后将每个区段映射为一个布尔型属性.于是,如何划分区段是实现QARP到BARP转变的关键.这里面有两个互相牵制的问题:当区段的范围太窄时,则可能使每个区段对应的属性的支持度很低,而出现“最小支持度问题”;当区段的范围太宽时,则可能使每个区段对应的属性的可信度很低,而出现“最小可信度问题”.一种简单直观的方法是将属性值区域相等地划分成区段[3],但这种方法得出的划分不能很好地表示数据的分布,特别是当属性值分布不均匀的时候.

6、本文提出一种聚类算法,根据数据库中数据的分布情况决定属性值如何划分区段,并可将相关的区段进行合并.在此基础上发掘得到的多值关联规则可具有有效性和可理解性.1关联规则从数据库中发掘的规则可以有以下几种:特征规则、区分规则、聚类规则、关联规则和进化规则等.关联规则是比较新的一种,由R.Agrawal于1993年提出.[2]令I={i1,i2,i3,...,im}为项的集合,D称为交易的集合,D中每个交易T为项的集合,即TI.定义1.如果对于I中一些项的集合X有XT,则称T包含X.定义2.一条关联规则是如下形式的蕴涵式XY,这里

7、,XI,YI且X∩Y=void.规则XY在交易集合D中成立,如果D中有s%的交易包含X∪Y,且D中有c%的包含X的交易也包含Y.这里,s称为支持度,c称为可信度.定义3.发掘关联规则问题就是在给定的交易集合D中产生所有满足最小支持度(MinSupp)和最小可信度(MinConf)的关联规则的过程.发掘关联规则问题可以分为两个子问题.(1)寻找所有这样的项的集合(Itemsets),它们的支持度超过用户给定的最小支持度.这个项的集合称为频繁集(FrequentItemset).(2)应用频繁集产生规则.一般的想法是,如果A

8、BCD和AB是频繁集,那么,可以通过计算可信度conf=supp(ABCD)/supp(AB)来确定规则AB->CD是否成立.当可信度conf≥最小可信度时,规则成立.其中supp(X)表示X的支持度.随着关联规则越来越受到重视,许多算法和系统被相继提出[3~7

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。