第十一章 序列模式挖掘

第十一章 序列模式挖掘

ID:1512866

大小:141.00 KB

页数:21页

时间:2017-11-12

第十一章 序列模式挖掘_第1页
第十一章 序列模式挖掘_第2页
第十一章 序列模式挖掘_第3页
第十一章 序列模式挖掘_第4页
第十一章 序列模式挖掘_第5页
资源描述:

《第十一章 序列模式挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十一章序列模式挖掘序列挖掘或称序列模式挖掘,是指从序列数据库中发现蕴涵的序列模式。时间序列分析和序列模式挖掘有许多相似之处,在应用范畴、技术方法等方面也有很大的重合度。但是,序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是针对带有交易时间属性的交易数据库中发现频繁项目序列以发现某一时间段内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面,其应用范围也不局限于交易数据库,在DNA分析等尖端科学研究领域

2、、Web访问等新型应用数据源等众多方面得到针对性研究。一、序列模式的概念及定义举例说明,比如有顾客租借录像带,典型的顺序是先租“星球大战”,然后是“帝国反击战”,再是“杰达武士归来”(这三部影片是以故事发生的时间先后而情节连续的)。值得注意的是租借这三部电影的行为并不一定需要是连续的。在任意两部之间随便插租了什么电影,仍然还是满足了这个序列模式,并且扩展一下,序列模式的元素也可以不只是一个元素(如一部电影),它也可以是一个项集(itemset)。项集,指的是多个物品组成的集合,内部元素不分排列顺序,比如“枕头和枕头套”就可以看作是

3、由两个项(item)组成的项集,它也可以作为某一个序列模式的元素。相关概念及定义以商品交易为例子,数据源是一个给定的由客户交易组成的大型数据库,每个交易由客户号(customer-id),交易时间以及在交易中购买的项组成。项集(itemset):由项(item)组成的一个非空集合。序列(sequence):是一列排好序的项集。不失一般性假定项集中的项由一些连续整数代替,这样一个项集i可以表示为(i1,i2…im),而这里的ij代表了一个项。一个序列s可以表示为,这里的sj代表的是一个项集。序列挖掘—基本概念定义

4、11-1一个序列(Sequence)是项集的有序表,记为α=α1→α2→⋯→αn,其中每个αi是一个项集(Itemset)。一个序列的长度(Length)是它所包含的项集。具有k长度的序列称为k-序列。定义11-2设序列α=α1→α2→⋯→αn,序列β=β1→β2→⋯→βm。若存在整数i1和B=

5、如果存在整数i1包含于序列<(7)(3,8)(9)(4,5,6)(8)>,因为(3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。但是序列<(3)(5)>不包含于<(3,5)>,反之亦然。前者表示项3和项5是先后购买的,而后者则表示项3和项5是同时购买的,这就是区别所在。序列挖掘—基本概念定义11-3给定序

6、列S,序列数据库DT,序列S的支持度(Support)是指S在DT中相对于整个数据库元组而言所包含S的元组出现的百分比。支持度大于最小支持度(min-sup)的k-序列,称为DT上的频繁k-序列。相关概念及定义客户序列一个数据库中的交易记录可以表示成上表一个客户所有的事务可以综合的看成是一个序列,每一个事务都由相应的一个项集来表示。事务按交易时间序排列成一个序列。称这样的序列为客户序列。通常,将一个客户的交易按交易时间排序成T1,T2,……,Tn。Ti中的项集定义成itemset(Ti)。这样,这个客户的客户序列成了这样的一个序列

7、:〈itemset(T1)itemset(T2)…itemset(Tn)〉。客户号物品(Item)时间1309002.10.2502.10.30210,203040,60,7002.10.1002.10.1502.10.20330,50,7002.10.2559002.10.1243040,709002.10.1102.10.2502.10.30交易号客户购物序列1(30),(90)2(10,20),(30),(40,60,70)3(30,50,70)4(30)(40,70)(90)5(90)序列挖掘—数据源的形式(续)表6-2顾

8、客序列表示例操作系统及其系统进程调用是评价系统安全性的一个重要方面。通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。因此序列挖掘是从系统调用等操作系统审计数据中发现有用模式的一个理想的技术。表给出了一个系统调用数据表示意,它

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。