数据挖掘实例.doc

数据挖掘实例.doc

ID:59194559

大小:133.00 KB

页数:5页

时间:2020-09-10

数据挖掘实例.doc_第1页
数据挖掘实例.doc_第2页
数据挖掘实例.doc_第3页
数据挖掘实例.doc_第4页
数据挖掘实例.doc_第5页
资源描述:

《数据挖掘实例.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Apriori算法:实例描述:以下是用户访问WEB日志的事务数,通过Apriori算法发掘其中的关联关系。(1)算法开始时,扫描事务数据库D,对组成每个事务的所有项进行累加计数,得到候选1_项集Ci,如表4-3所示。定义min_sup=2,删除支持计数小于2的项,可以得到频繁1一项集L1,如表4-4所示。(2)为发现频繁2一项集集合1,2,算法使用生成候选2一项集集合C2,(3)扫面事务数据库D,计算C2中每一个候选项集的支持度,将支持度小于2的候选2一项集删除,将得到频繁2一项集L2,如表4-6所示。(3)使用频繁2一项集Lz来求候选3一项集,从

2、连接步开始,首先令C3={{ABC},{ABE},fABF},FACE},fACF},{AEF}}。由Apriori反单调性质,即频繁项集子项集也是频繁集的,即任何一个k一项集,只要它其中的任何一个(k-1)一项子集不属于频繁-项集,则说明这个k一项集也不是频繁的。所以,根据Apriori算法的剪枝步操作就不需要再把这条k一项集选到候选项集k一项集中。例如:由上面我们得到的ACF项集,有三个子集:AC,AF,CF。其中CF不属于L2中的频繁2一项集,所以通过剪枝步ACF就不是候选3一项集里的项。根据该方法,可以确定5个候选不可能是频繁的,因此,把它

3、们从C3中删除,得到如表4-7所示的候选3一项集。然后,扫描事务数据库D计算C3中每个项的候选计数,得到频繁3一项集L},如表4-8所示。最后得到了频繁3一项集,由该频繁项集可以得到关联规则,并可对这些关联规则进行分析,得到事务数据集中相关事务间的信息。支持度:置信度:最后得到关联规则:PageRank算法实例描述:假设有4个网页,它们相互之间有链接,其结构如图所示,为每个网页赋予的初始PR都是1。有如下公式:PG(A)=(1-d)+d*(PR(T1)/C(T1)+....+PR(Tn)/C(Tn))其中,PR(A)是指网页A的PR,T1,T2,.

4、..,Tn是指网页A的链入网页PR(Ti)是网页Ti的PRC(Ti)是网页Ti的链出数量d是一个衰减因子,通常取值0.85。先看网页A,衰减因子之后的值是1*0.85=0.85。它有两个链出网页,因此分别传递给0.425给B和C。对于网页B和C,因为只有一个链出网页,它们分别传0.85给相应的网页,每个网页都有0.15没有传递给任何其他网页,因此计算结果为:PR(A)=0.15+0.85*(1/1)=1;PR(B)=0.15+0.85*(1/2)=0.575;PR(C)=0.15+0.85*(1/2+1/1+1/1)=2.275;PR(D)=0.1

5、5网页D0.15网页C2.275网页A1网页B0.575第一次计算显示了网页C的重要性,但是并没有结束,因为C在计算A之后又变化,所以需进一步计算。PR(A)=0.15+0.85*(2.275/1)=2.08375;PR(B)=0.15+0.85*(1/2)=0.575;PR(C)=0.15+0.85*(1/2+0.575/1+0.15/1)=2.275;PR(D)=0.15;第二次计算后,A的PR变成最高的了。随着计算的进行,网页之间不断传递PR,直到最后基本稳定。最大期望(EM)算法实例描述:一个关于翻译的问题。假设语料库为:Ilaugh我笑l

6、aughloudly大声地笑那么有英语词汇表}{I,laugh,loudly}以及中文词汇表{我,笑,大声地}最开始,我们并没有任何关于词汇间如何翻译的信息,那么:P(我

7、I)=1/3P(笑

8、I)=1/3P(大声地

9、I)=1/3P(我

10、laugh)=1/3P(笑

11、laugh)=1/3P(大声地

12、laugh)=1/3P(我

13、loudly)=1/3P(笑

14、loudly)=1/3P(大声地

15、loudly)=1/3对于Ilaugh我笑laughloudly大声地笑有2种对齐方式:顺序(I对应我,laugh对应笑),反序(I对应笑,laugh对应我)这样P(

16、顺序,我笑

17、Ilaugh)=P(我

18、I)P(笑

19、laugh)=1/3*1/3=1/9P(反序,我笑

20、Ilaugh)=P(笑

21、I)P(我

22、laugh)=1/3*1/3=1/9规则化后,有:P(顺序,我笑

23、Ilaugh)=1/2P(反序,我笑

24、Ilaugh)=1/2同理,对于第二个句子对P(顺序,大声地笑

25、laughloudly)=1/2P(反序,大声地笑

26、laughloudly)=1/2现在重新计算词汇对译概率可得:P(我

27、I)=1/2P(笑

28、I)=1/2P(大声地

29、I)=0这个概率的得出步骤:考虑(我I)这一对,他出现在(Ilaugh我笑)的顺序对

30、齐中,而其概率为1/2(其实称为权重更确切)(笑

31、I)出现在(Ilaugh我笑的)的反序对齐中,而其概率为1/2而(大声地

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。