资源描述:
《数据库中的因果规则挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2002年12月广西师范学院学报(自然科学版)Dec.2002第19卷第4期JournalofGuangxiTeachersCollege(NaturalScienceEdition)Vol.19,No.4文章编号:100228743(2002)0420077204数据库中的因果规则挖掘钟 智,苏毅娟,张师超(广西师范学院数学与计算机科学系,广西南宁530001)摘 要:传统的因果规则挖掘算法仅能在简单变量间挖掘因果规则,本文给出了一个能够在多值变量X与Y间挖掘形如X→Y的因果规则,且有一条件概率矩阵MY
2、X.关键词:数据挖掘
3、;条件概率;数据划分;因果规则中图分类号:TP311.131文献标识码:A0 引 言随着数据挖掘技术的发展和日益成熟,数据库中挖掘因果规则愈来愈引起人们的关注.许多因果规则的挖掘算法,例如LCD算法[2]和CU-path算法[4]都是基于约束的因果发现,它采用了Chi-squared公式来度量变量间的依赖性.然而,这些方法仅能挖掘简单变量间的因果规则,无法在多值变量间挖掘因果规则.本文给出了一个能够在大型数据库的多值变量间挖掘因果规则的方法.该因果规则形如X?Y,且有条件概率矩阵MY
4、X.首先举例说明应用现有技术能否在多值变量
5、间挖掘因果规则.例1有一所大学的职工数据库,其中每一记录有两个字段“:education”和“salary”.我们从中选取了30000条记录,其统计结果如表1所示.表1 职工数据库的统计结果EducationSalaryNumber[3500,+∞]8500Doctor[2100,3500]1400[0,2100]100[3500,+∞]1900Master[2100,3500]7100[0,2100]1000[3500,+∞]200UnderMaster[2100,3500]3000[0,2100]6800其中,将域Educ
6、ation划分为三个定量项(quatitativeitem):Doctor,Master和UnderMaster,而将域Salary划分三个定量项:[3500,+∞],[2100,3500]和[0,2100].Number表示统计结果,比如,数据库中包含定量项Master和[2100,3500]的记录个数是7100.a.若采用文[3,6]中所提出的算法,则将得到如下的定量关联规则:规则1:Education=Doctor→Salary≥3500,置信度conf=0.85收稿日期:2002211206作者简介:钟 智(1963-
7、),男,广西梧州人,讲师,主要从事数据库研究及相关学科的教学工作.©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.·7 广西师范学院学报8·(自然科学版) 第19卷 规则2:Education=Master→Salary∈[2100,3500],置信度conf=0.71规则3:Education=UnderMaster→Salary<2100,置信度conf=0.68以上这些规则都是定量关联规则.然而,
8、这些规则仅仅说明了属性Education和Salary间的部分关系.b.若采用算法LCD[2]和算法CU-path,将得到如下的规则:Education=Doctor→Salary=3500和Education=Master→Salary=2500这种方法显然不如第1种方法.c.本文采用了一个条件概率矩阵MY
9、X,以适应数据库中分类属性的数据.采用我们的方法,将得到如下所示的条件概率矩阵,此时X和Y分别是两个项变量(itemvariable).X∈{Doctor,Master,UnderMaster},Y∈{[3500,+∞]
10、,[2100,3500],[0,2100]}.0.850.140.01MY
11、X=0.190.710.10.020.30.68这里,0.85表示p(Y=[3500,+∞]
12、X=Doctor),0.14表示p(Y=[2100,3500]
13、X=Doctor).分析可知,可从以上矩阵导出第一种方法得出的三条规则,但无法导出第二种方法所得的结果.显然,我们的方法更能体现多值变量X与Y间的关系,比现有的方法更具挑战性.一般地,假设R(X),R(Y)分别是变量X,Y的取值范围,若x∈R(X),则称x是X的点值,此时x是数据挖掘中的定量项(q
14、uatitativeitem).X与Y间的关系形如X→Y,且有条件概率矩阵定义如下:p(y1
15、x1)p(y2
16、x1)⋯p(yn
17、x1)△△p(y1
18、x2)p(y2
19、x2)⋯p(yn
20、x2)MY
21、X=P(y
22、x)=P(Y=y
23、X=x)= …p(y1
24、xm)p(y2
25、xm)⋯p