一种多关系频繁模式挖掘算法

一种多关系频繁模式挖掘算法

ID:23152777

大小:54.50 KB

页数:6页

时间:2018-11-04

一种多关系频繁模式挖掘算法 _第1页
一种多关系频繁模式挖掘算法 _第2页
一种多关系频繁模式挖掘算法 _第3页
一种多关系频繁模式挖掘算法 _第4页
一种多关系频繁模式挖掘算法 _第5页
资源描述:

《一种多关系频繁模式挖掘算法 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一种多关系频繁模式挖掘算法数据挖掘,就是从大型的数据库中提取人们感兴趣的知识。大多数传统的数据挖掘方法只适用于在数据库的单表上进行挖掘。当面对多表时,不得不把这些表物理上连接到一张表中,这样会出现准确率低、效率低等问题。在这种情况下,多关系数据挖掘应运而生1]。多关系数据挖掘研究直接在数据库多张表上进行挖掘的方法,无须向单表转换。    1相关工作    1.1传统频繁模式挖掘算法  挖掘频繁模式算法最有代表性的是Apriori算法2],但是它只适用于单维的、单层的数据。在文献3]中提出的频繁模式挖掘算法是一种传统的单表频繁模式挖掘算法,虽然适用于多维,但是只能处理单

2、表频繁模式挖掘,不适用于多表,当面对多表时,首先不得不把多表集成到单表,存在效率低的问题。  1.2基于ILP的多关系数据挖掘算法  目前大多数的多关系数据挖掘算法都是借鉴ILP思想4]发展起来的。ILP使用逻辑编程语言作为知识表示方式,这种知识表示方式更具表达力,能够灵活方便地表示关系学习与多关系数据挖掘过程中的多关系数据、背景知识以及涉及多关系的复杂模式。此外,ILP方法便于在归纳推理过程中使用背景知识。这些都是ILP思想成为多关系数据挖掘主要方法的直接原因。但ILP思想存在一些缺点:a)处理不确定性和有噪声数据的能力有限;b)ILP使用基于θ包含

3、的操作在假设空间中进行启发式搜索,而θ包含计算实质上是一个NP完全问题,这使得ILP思想效率低,可扩展性差。  R5,6]和FARMER7]是两种基于ILP思想的多关系频繁模式挖掘算法。R算法的核心思想与Apriori算法相同,采用逐层的、宽度优先的搜索策略。FARMER采用一种复杂的数据结构Trie树来存储和操纵查询,Trie树中从根节点到叶子节点的每条路径都对应一个查询,利用该树进行查询的生成和支持度的计算。由于R和FARMER都基于ILP思想,这使得两者的效率都不高。  1.3基于元组ID传播的多关系数据挖掘算法  除了ILP思想,多关系数据挖掘

4、也可以借鉴文献8]中提出的元组ID传播思想。元组ID传播是一种在多表间建立虚连接的思想,它的定义如下:假设有两个关系R1和R2,R1的主键是整数属性,这些整数代表R1中每个元组的ID(如果没有这样的主键,可以创建一个,表示为R1.ID)。假定关系R1和R2可以按属性R1.k和R2.k连接(R1包含R2的主键k)。则在R2中增加一列属性IDset(R1),对R2的每一个元组t,其在IDset(R1)属性上的值是,R1中所有可与t连接的元组在R1.ID上的值,即t在IDset

5、(R1)上的值等于∪u∈R1,u.k=t.kR1.ID(u),R1.ID(u)表示元组u在R1.ID上的值。也就是说,R1中所有元组的ID都传播到R2可与之连接的元组的属性IDset(R1)上。  CrossMine8]是一种基于元组ID传播思想的多关系分类算法。CrossMine利用元组ID传播来评估每个谓词的foil增益,把最佳谓词添加到当前规则中。借助元组ID传播,CrossMine无须物理连接,大大提高了分类的效率。  Crossclus9]是一种基于元组ID传播思想的用户指导的多关系

6、聚类算法。在用户指定某一属性后,Crossclus利用元组ID传播来搜索相关属性,通过这些属性计算对象之间的相似度。借助元组ID传播,Crossclus无须物理连接,聚类效率较高。  MFP10]是一种基于元组ID传播的用户指导的多关系关联规则算法。在用户指定某些属性后,MFP发现由这些属性所产生的关联规则。借助元组ID传播,MFP无须物理连接,效率较高。  1.4本文工作  本文针对传统的频繁模式挖掘算法不适用于解决基于ILP思想的多关系频繁模式挖掘算法效率低的问题,提出了一种多关系频繁模式挖掘算法。借助于元组ID传播的思想,对表进行虚连接,使算法可以直接在多张表

7、上挖掘出所有频繁模式,提高了在多关系中挖掘频繁模式的效率。  在挖掘多表频繁项集时,只考虑来自以下两种情况的表所产生的项集:a)两个表之间存在主键与外键的对应;b)两个表的主键同时是某个第三表的外键。不考虑其他情况,因为其他情况在数据库中代表这些表没有很强的相关性。    2术语定义    定义1项。包含于任一个表的非主键和外键属性的每个不同取值称为一个项,记为一个属性和取值对:属性=取值,或用惟一的一个标志符表示,如用标志符X表示一个项。  定义2项集。多个项构成的集合称为项集。    定义3单表项集。项集中的每个项,若都来自同一个表,则称为单

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。