基于频繁访问页组的路径聚类研究

基于频繁访问页组的路径聚类研究

ID:36772574

大小:646.87 KB

页数:4页

时间:2019-05-15

基于频繁访问页组的路径聚类研究_第1页
基于频繁访问页组的路径聚类研究_第2页
基于频繁访问页组的路径聚类研究_第3页
基于频繁访问页组的路径聚类研究_第4页
资源描述:

《基于频繁访问页组的路径聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1302010,46(33)ComputerEngineeringandApplications计算机工程与应用基于频繁访问页组的路径聚类研究112吴俊杰,刘耀军,陈俊杰112WUJun-jie,LIUYao-jun,CHENJun-jie1.太原师范学院计算机系,太原0300122.太原理工大学计算机与软件学院,太原0300241.DepartmentofComputer,TaiyuanNormalUniversity,Taiyuan030012,China2.CollegeofComputerandSoftware,TaiyuanUniversityofTechnol

2、ogy,Taiyuan030024,ChinaE-mail:13503505176@139.comWUJun-jie,LIUYao-jun,CHENJun-jie.Researchofpathclusteringbasedonfrequentlyvisitedpagegroups.ComputerEngineeringandApplications,2010,46(33):130-131.Abstract:Thepageclusteringbasedonusersessionsistogroupthefrequentlyvisitedpages,whichcanhelpt

3、hewebmas-tertooptimizethesitetopology.Thispaperwillintroduceanimprovedclusteringalgorithmbasedonusers’accessinterest.K-PathPlusdefinesnewinterestdegree,content-linkratio.Intheendatrueexperimentisdonebyusingwww.ty.sx.cnlogfile.Theresultofexperimentissuccessful.Keywords:accessinterest;clust

4、ering;pathclustering;datamining;interestdegree;content-linkratio摘要:基于用户会话的页面聚类算法旨在发现用户在浏览过程中频繁访问的页组,为站点管理员优化站点结构提供有力的依据。将介绍一种改进的基于频繁访问页组的路径聚类算法K-PathPlus,其中定义了新的兴趣度、内容链接因子。最后采用龙城热线网站日志进行真实测试,实验的结果是成功的。关键词:访问兴趣;聚类;路径聚类;数据挖掘;兴趣度;内容链接因子DOI:10.3778/j.issn.1002-8331.2010.33.037文章编号:1002-8331(2

5、010)33-0130-02文献标识码:A中图分类号:TP3911引言其中:n表示该事务的最大长度;li表示某用户在该事务中访问网络的发展使得网站设计人员竭尽全力优化自己的站过的第i个页面。点,以吸引和留住更多的用户。同时对Web站点的设计和功Web页面根据其不同的用途和内容可以被分为4种类型:能提出了更高的要求,即要求Web具有智能性,能快速、准确主页、内容页、导航页、查找页。这些页面因其作用不同,在挖地找到用户所需信息;能为不同用户提供不同的服务[1];能允掘过程中应该具有不同的权值,例如:内容页在挖掘算法中的许用户根据自己的需要定制页面;能为用户提供产品营销策优先级

6、应该高于导航页和查找页。为了定量刻画内容页与其略信息等等。完全彻底地实现所有功能是困难的,它需要在人他页的不同特征,提出页面的内容链接因子参量[3]。工智能和自然语言理解等方面有突破性进展。而一个有效的解定义2内容链接因子CLR(Content-LinkRatio)决办法,就是利用Web数据挖掘技术,从中得到有用的信息[2]。aiCLR=(2)in通过Web日志挖掘可以发现隐藏在其中的用户访问模åak式,主要包括数据预处理和挖掘算法实施两个主要阶段。实k=1施挖掘算法之前要对Web日志文件进行预处理,将其转化为其中:CLRi表示第i个页面的内容链接因子;ai表示链接到第i

7、用户会话集。关于数据预处理的具体内容可参见文献[3],此个页面的总量。处不再赘述。着重讨论Web日志挖掘中的页面聚类算法。定义3设用户u的访问事务为Su=(l1,l2,…,ln),相应的驻留时间为Tu=((tl1),(tl2),…,(tln)),访问页面的频度为Fu=2路径聚类算法K-Pathplus(f(l1),f(l2),…,f(ln)),访问页面的内容链接因子CLRu=定义1用户访问事务(clr(l1),clr(l2),…,clr(ln)),那么该用户的访问事务转化为一S=(l1,l2,…,ln)(1≤i≤n)(1)个四

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。