欢迎来到天天文库
浏览记录
ID:56477134
大小:1.05 MB
页数:44页
时间:2020-06-19
《数据挖掘2015最新精品课程完整课件(第7讲)---挖掘复杂类型频繁模式.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、挖掘复杂类型频繁模式主要内容序列模式挖掘频繁子图挖掘序列模式挖掘序列挖掘或称序列模式挖掘,是指从序列数据库中发现蕴涵的序列模式。时间序列分析和序列模式挖掘有许多相似之处,在应用范畴、技术方法等方面也有很大的重合度。但是,序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是针对带有交易时间属性的交易数据库中发现频繁项目序列以发现某一时间段内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面,其应用范围也不局限于交易数据库,在DNA分析等尖端科学研究
2、领域、Web访问等新型应用数据源等众多方面得到针对性研究。3概述频繁序列(frequentsequentialpattern)源自频繁项集序列模式挖掘的应用购物序列医疗处方股市通话序列Web点击序列程序执行序列DNA序列和基因结构序列模式挖掘给定一个序列的集合,挖掘全部的频繁子序列模式Asequencedatabase每个元素包含了项目的集合,元素内的项目没有顺序。是的子序列给定最小支持度阈值min_sup=2,<(ab)c>是频繁序列模式如果t中每个有序元素都是s中一个有序元素的子集,则称序列t是另一个序列s的子序列
3、。SIDsequence1020<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40Asequence:<(ef)(ab)(df)cb>子序列(包含)一个序列是另一序列的子集(m≥n)当且仅当存在整数i1<{2}{3,5}>
4、Yes<{1,2}{3,4}><{1}{2}>No<{2,4}{2,4}{2,5}><{2}{4}>Yes序列模式的Apriori性质如给定最小支持度阈值min_sup=2,是非频繁的,则和<(ah)b>也不是频繁的50<(be)(ce)d>40<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10SequenceSeq.ID若序列S不频繁,则S的超序列(super-sequences)也不再频繁。序列挖掘—数据源的形式表6-1带交易时间的交易数据源示例客户号(Cust_id)交易时间
5、(Tran_time)物品(Item)11June25’99June30’993090222June10’99June15’99June20’9910,203040,60,703June25’9930,50,70444June25’99June30’99July25’993040,70905June12’9990表6-2顾客序列表示例客户号(Cust_id)顾客序列(CustomerSequence)1<(30)(90)>2<(10,20)(30)(40,60,70)>3<(30,50,70)>4<(30)(40,70)((90)>5<(90)>带交易时间的交易数据库的
6、典型形式是包含客户号(Customer-id)、交易时间(Transaction-Time)以及在交易中购买的项(Item)等的交易记录表。表6-1给出了一个这样数据表的示例。这样的数据源需要进行形式化的整理,其中一个理想的预处理方法就是转换成顾客序列,即将一个顾客的交易按交易时间排序成项目序列。例如表6-2给出了表6-1对应的所有顾客序列表。17八月20218序列挖掘—数据源的形式(续)表6-2顾客序列表示例操作系统及其系统进程调用是评价系统安全性的一个重要方面。通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。因此序列挖掘是从系统调用等操作系统
7、审计数据中发现有用模式的一个理想的技术。表6-3给出了一个系统调用数据表示意,它是利用数据挖掘技术进行操作系统安全性审计的常用数据源。表6-3系统进程调用数据示例进程号(Pro_id)调用时间(Call_time)调用号(Call_id)74474410699106974410699-104:01:10:3004:01:10:3104:01:10:3204:01:10:3404:01:10:3504:01:10:3804:01:10:3904:01:10:4023144245816216表6-4系统调用序列数据表示例进程号(Pro_id)
此文档下载收益归作者所有