数据挖掘实例.doc

ID：59194559

大小：133.00 KB

页数：5页

时间：2020-09-10

资源描述：

《数据挖掘实例.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、Apriori算法：实例描述：以下是用户访问WEB日志的事务数，通过Apriori算法发掘其中的关联关系。(1)算法开始时，扫描事务数据库D,对组成每个事务的所有项进行累加计数，得到候选1_项集Ci，如表4-3所示。定义min_sup=2，删除支持计数小于2的项，可以得到频繁1一项集L1，如表4-4所示。(2)为发现频繁2一项集集合1,2，算法使用生成候选2一项集集合C2，(3)扫面事务数据库D，计算C2中每一个候选项集的支持度，将支持度小于2的候选2一项集删除，将得到频繁2一项集L2，如表4-6所示。(3)使用频繁2一项集Lz来求候选3一项集，从

2、连接步开始，首先令C3={{ABC},{ABE},fABF},FACE},fACF},{AEF}}。由Apriori反单调性质，即频繁项集子项集也是频繁集的，即任何一个k一项集，只要它其中的任何一个(k-1)一项子集不属于频繁-项集，则说明这个k一项集也不是频繁的。所以，根据Apriori算法的剪枝步操作就不需要再把这条k一项集选到候选项集k一项集中。例如:由上面我们得到的ACF项集，有三个子集:AC，AF，CF。其中CF不属于L2中的频繁2一项集，所以通过剪枝步ACF就不是候选3一项集里的项。根据该方法，可以确定5个候选不可能是频繁的，因此，把它

3、们从C3中删除，得到如表4-7所示的候选3一项集。然后，扫描事务数据库D计算C3中每个项的候选计数，得到频繁3一项集L}，如表4-8所示。最后得到了频繁3一项集，由该频繁项集可以得到关联规则，并可对这些关联规则进行分析，得到事务数据集中相关事务间的信息。支持度：置信度：最后得到关联规则：PageRank算法实例描述：假设有4个网页，它们相互之间有链接，其结构如图所示，为每个网页赋予的初始PR都是1。有如下公式：PG（A）=（1-d）+d*（PR（T1）/C（T1）+....+PR（Tn）/C（Tn））其中，PR（A）是指网页A的PR，T1，T2，.

4、..，Tn是指网页A的链入网页PR（Ti）是网页Ti的PRC（Ti）是网页Ti的链出数量d是一个衰减因子，通常取值0.85。先看网页A，衰减因子之后的值是1*0.85=0.85。它有两个链出网页，因此分别传递给0.425给B和C。对于网页Ｂ和C，因为只有一个链出网页，它们分别传0.85给相应的网页，每个网页都有0.15没有传递给任何其他网页，因此计算结果为：PR（A）=0.15+0.85*（1/1）=1；PR（B）=0.15+0.85*（1/2）=0.575；PR（C）=0.15+0.85*（1/2+1/1+1/1）=2.275；PR（D）=0.1

5、5网页D0.15网页C2.275网页A1网页B0.575第一次计算显示了网页C的重要性，但是并没有结束，因为C在计算A之后又变化，所以需进一步计算。PR（A）=0.15+0.85*（2.275/1）=2.08375；PR（B）=0.15+0.85*（1/2）=0.575；PR（C）=0.15+0.85*（1/2+0.575/1+0.15/1）=2.275；PR（D）=0.15；第二次计算后，A的PR变成最高的了。随着计算的进行，网页之间不断传递PR，直到最后基本稳定。最大期望（EM）算法实例描述：一个关于翻译的问题。假设语料库为：Ilaugh我笑l

6、aughloudly大声地笑那么有英语词汇表}{I,laugh,loudly}以及中文词汇表{我，笑，大声地}最开始，我们并没有任何关于词汇间如何翻译的信息，那么：P(我

7、I）=1/3P(笑

8、I）=1/3P(大声地

9、I）=1/3P(我

10、laugh）=1/3P(笑

11、laugh）=1/3P(大声地

12、laugh）=1/3P(我

13、loudly）=1/3P(笑

14、loudly）=1/3P(大声地

15、loudly）=1/3对于Ilaugh我笑laughloudly大声地笑有2种对齐方式：顺序（I对应我，laugh对应笑），反序（I对应笑，laugh对应我）这样P(

16、顺序，我笑

17、Ilaugh）=P(我

18、I）P(笑

19、laugh）=1/3*1/3=1/9P(反序，我笑

20、Ilaugh）=P(笑

21、I）P(我

22、laugh）=1/3*1/3=1/9规则化后，有：P(顺序，我笑

23、Ilaugh）=1/2P(反序，我笑

24、Ilaugh）=1/2同理，对于第二个句子对P(顺序，大声地笑

25、laughloudly）=1/2P(反序，大声地笑

26、laughloudly）=1/2现在重新计算词汇对译概率可得：P(我

27、I）=1/2P(笑

28、I）=1/2P(大声地

29、I）=0这个概率的得出步骤：考虑（我I）这一对，他出现在（Ilaugh我笑）的顺序对

30、齐中，而其概率为1/2（其实称为权重更确切）(笑

31、I）出现在（Ilaugh我笑的）的反序对齐中，而其概率为1/2而(大声地

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘实例.doc

数据挖掘实例.doc

相关文章

相关标签