欢迎来到天天文库
浏览记录
ID:34110596
大小:433.05 KB
页数:5页
时间:2019-03-03
《基于有向带权图的页面聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机技术与发展Vo1第期.19No.92009年9月COMPUFERTECHNOLOGYANDDEVELOPMENTSep.2009基于有向带权图的页面聚类算法研究方杰,张结魁,周军(合肥工业大学,安徽合肥230009)摘要:聚类算法是数据挖掘中的一个重要的分析工具。Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类其中页面聚类是指导网站结构离线优化的重要方法。利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类。选取真实数据对典型的聚类算法K—n瑚J1s算法、DBSCAN算法和COBWEB算法进行实验。实验结果表明,在
2、选取的数据集范围内,COBWEB算法准确率要高于K—means算法和DKSCAN算法,时间性能与用户访问频率矩阵大小有密切关系。关键词:有向带权图;聚类算法;页面聚类;K—n算法;Ⅸ:AN算法;0()BwEB算法中图分类号;TP301.6文献标识码:A文章编号:1673—629X(2009)09—0049—05StudyonPageClusteringAlgorithmsBasedonWeightedDirectedGraphFANGJie,ZHANGJie—kui,ZHOUJun(HefeiUniversityofTechnology,Hefei2300
3、09,China)Abstract:Clusteringalgorithmis8/1importantanalyticaltoolindatamining.Clusteringanalysisisgenerallyfallenintou8汀clusteringandpageclusteringinWebussgemining.Pageclusteringis趴importantmethodsforguidingforthestructureofthesiteoff—lineoptimiza·tion.Ttlispaperusewe~hteddirected
4、graphtOdescribeuservisitandconversationrecords.anduseclusteringalgorithmstoreal~ethepageclusteringbytheweighteddirectedgraphmodeestablished.SelecttherealdataC&1TiesontheexperimenttOthetypieadclusteringal·gorithmsK—meansalgorithm。DBSCANalgorithmandO0]’Balgorithm.1_heexperimentsresu
5、ltsindicatethatintheselecteddatasets,theaccuracyrateofODBWEBalgorithmishigherthanthatofK—H坨ansalgorithmandDI~_ANalgorithm。andthetimecapabilityiscloselyrelatedtOthesizeofuse1-visitfrequencymatrix.Keywords:weighteddirectedgraph;clusteringalgorithms;pageclustering;K—meigD~algorithm;D
6、】3SCANalgorithm;a)EI砌aIg0·rithmO引言面的访问情况也是非常重要的信息。因此可以利用有互联网已经成为一个巨大的分布式全球信息服务向带权图来表示用户会话,运用转移概率矩阵描述超中心。如何为用户快速、高效、准确地提供他们所需要链接的重要性,并且在建模的过程中结合站点的拓扑的,并具有高度相关性的一簇Web页面,已经成为业结构。这样不仅可以较好刻画用户的访问行为,还描界研究的主要内容。解决这个问题的一个有效途径就述了网站的拓扑结构以及站点的结构特征数据。基于是对页面进行合理的聚类分析,从而更高效地进行有向带权图的用户访问模型的有效性在文
7、献[1]已经web信息的分类、存储、检索和集成。然而,若要真正得到证明,放对于有向带权图模型的有效性试验不再实现高效的web页面聚类,就必须要找出web页面之单独验证o间的内部链接关系,特别是页面之间的相似性更是尤web使用挖掘中的聚类分析一般分为用户聚类为重要。同时,每个页面的重要程度、页面内容以及页和页面聚类两类。用户聚类是对用户的会话进行分析,根据用户的访问行为,寻找行为模式相似的用户l2J。将这些用户分为一组,则组内的用户可以共享收稿日期:2009一O1—18;修回日期:2009一o3—28一个用户配置文件,即该组用户访问频率较高的页面基金项目:国
8、家自然科学基金项目(70672097);国家自然科学基金集合。页面
此文档下载收益归作者所有