web数据挖掘中频繁访问页组有趣性的研究

web数据挖掘中频繁访问页组有趣性的研究

ID:25513202

大小:49.50 KB

页数:4页

时间:2018-11-20

web数据挖掘中频繁访问页组有趣性的研究_第1页
web数据挖掘中频繁访问页组有趣性的研究_第2页
web数据挖掘中频繁访问页组有趣性的研究_第3页
web数据挖掘中频繁访问页组有趣性的研究_第4页
资源描述:

《web数据挖掘中频繁访问页组有趣性的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Web数据挖掘中频繁访问页组有趣性的研究摘要关联规则挖掘是IR)。利用页面之间的关联概率对所产生的频繁访问页组的有趣度进行评价,得到有趣度高的频繁访问页组。实验显示,MIR算法提高了规则的利用率,有效的改善网站拓扑结构。关键词有趣关联规则;页面关联概率;频繁访问页组1引言随着互联网技术的快速发展,如何在数据中找到有用的信息,已经成为当今计算机技术研究的一个热点课题。IR算法来增加挖掘规则的有趣性。3有趣关联规则MIR算法3.1页面之间的关联概率在这里,假定超文本系统仅仅包含有一些基本的页面。除此外我们还假设:①指向

2、一个页面的连接是将这个页面作为一个整体来对待的,而不是指向页面内容的一部分;②在超文本系统中不存在环路;③在任何源节点和目标节点间最多只有一条链路。基于以上的假设,我们可以为超文本系统建立一个有向网络拓扑图,如图1所示:图1网络拓扑图在这里,有向图G=(N,E),其中N是节点的集合,E是边的集合。一个节点A(A∈N)和一个页面相对应,一条边是一个元组(A,B)∈E,和页面间的一个连接相对应;对于给定的连接(A,B)称A是源节点,B是目的节点。在这里并不假定图是连接的。如果两个页面在网络拓扑中相距较远,则表明它们之间

3、的关联性较低,如果我们从日志信息中挖掘出它们之间有较高的访问可信度的规则,则这样的规则是用户感兴趣的。如图1的页面C和E在拓扑结构中,显示关联度较低。如果,在Web日志中发现了C=>E这样的关联规则,则兴趣度是较高的。通过这样兴趣度高的关联规则,有利于网站结构的调整。在介绍算法前,我们首先引入几种资源链接情况的关联概率。(1)如果在资源A、B之间不存在任何有向边或者链接序列,则P(A

4、B)=0。(2)如果资源之间存在有向边链接,假定B中存在Li个链接(Li>=1),则用户可能从B访问A的概率为P(A

5、B

6、)=1/(li+1)(包括后退的情况)。如图1中P(C

7、B)=1/3。(3)如果A,B之间存在有向序列(A,K1,K2,…B),则P(A

8、B)=P(K1

9、B)P(K2

10、K1)…P(A

11、Kn)。3.2规则的有趣度确定Web关联规则挖掘可以利用网络拓扑的特点进行改善。网络拓扑是一个由链接连接起来的资源集。在网络拓扑中直接或间接相连的资源集在用户访问时同时出现的可能性较高,显然他们的关联规则对于网络拓扑设计者是不大感兴趣的。而在拓扑中不相连或相距较远的资源集在用户访问时同时出现的可能性较低,他们的关联规则恰好是网络设计者

12、所期望取得的。在这里,我们定义有趣度公式如下:interest(A

13、B)=1-P(A

14、B)(1)在拓扑结构中,关联度越高则兴趣度越低。如果页面间没有任何链接,则其interest为1。当然,我们可以考虑页面内容及访问该页面时间长短和访问频率等多种因素来考虑兴趣度,但是这样实现的时候CPU花费的时间比较多,在这里我们考虑了比较简单实用的方法确定的规则有趣度。3.3有趣关联规则算法(MIR)挖掘频繁访问页组的算法类似于关联规则算法中发现最大项目集,我们预先设定支持度的阀值T,在频繁访问页组中都是支持度大于T的页面,在传

15、统的页面聚类算法中,支持度指包含页组中所有页面的用户会话的个数。在MIR算法中,我们除了设定支持度,同时根据网站的拓扑结构计算每个规则的有趣度interest(A

16、B)。挖掘出来的页组的有趣度还需要满足用户指定的最小兴趣度min-interest。在算法中,我们先用FLOYD算法求得A到B的最短有向路径,然后利用上面讨论的公式计算P(A

17、B),进行页面间关联概率的计算。MIR算法预先计算任意页面之间的最短路径,存储在邻接矩阵中,提高算法的运行效率。构造最短路径的算法描述如下:Queue=Enqueue(index)

18、//从第一个页面开始P=nepty(queue)I=Dequeue();//从队列中取出一个页面ForeachJ=I.link//对于该页面的每个链接Ifnotvisited[J]then//判断页面J在图G中是否已有结点s=s+1;q=nein-interest;输出:有趣频繁访问页组;利用上面的算法构造了一个含有任意页面最短路径的邻接矩阵IR算法已经在学校网站中的一个星期的日志数据中进行了验证,试验环境是在CPU为PIV1.3G,内存为256M的PC机上,运行平台为iningassociationrulesbe

19、tsinlargedatabases[M].ODp93,207-216[2]RAgrasforminingassociationrules[C].InJ.B.Bocca,M.Jarke,andC.Zaniolo,editors,Proceedings20thInternationalConferenceonVeryLargeDatabas2es,Morgan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。