资源描述:
《基于用户浏览行为聚类Web用户》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、计算机科学2008Vol135№133)基于用户浏览行为聚类Web用户陈敏苗夺谦段其国(同济大学电子与信息工程学院上海201804)(教育部嵌入式系统和服务计算重点实验室)摘要本文结合Web用户浏览行为的特点,提出了一种新的路径相似度的计算方法,在计算相似度时不仅把用户的浏览模式仅作为一种序列模式来考虑,还充分考虑了用户在网上浏览的时间因素。然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader算法聚类Web用户的有效性。关键词Web日志挖掘,聚类,相
2、似度,粗糙度ClusteringWebUsersBasedonUsers’BrowsingActionCHENMinMIAODuo2QianDUANQi2Quo(DepartmentofComputerScienceandEngineering,TongjiUniversity,Shanghai201804)(TheKeyLaboratoryofEmbeddedSystemandServiceComputing,MinistryofEducation)AbstractAnovelmethodtogetsimilitudeactionsofWebusers
3、isproposedinthispaperaftertakingintoaccountthecharacteristicsofusers’browsingactions.ThenewsimilarityisdefinedaccordingtonotonlythebrowsingpagesbutalsothetimewhenusersbrowseWebpages.Then,theconceptofroughapproximationsisintroducedinLeaderclusteralgorithmandroughLeaderclusteralgor
4、ithmissuggested.Finally,theperformanceoftheroughLeaderclusteralgo2rithmistestedandanalyzedbybenchmarkbasedonthenovelmethodtocomputingthesimilaritiesofthewebusers’accesspatterns.KeywordsWebusagemining,Clustering,Similarity,Roughapproximations中,提出粗糙Leader聚类算法。最后,使用标准数据集进行1引言了试验,证明基
5、于此种相似度计算方法,应用粗糙Leader算[1]作为Web智能(WebIntelligence)的一个子研究课题,法聚类Web用户的有效性。Web日志挖掘是一个颇具前景的研究领域。通过挖掘Web2Web访问路径间相似度的计算访问日志可以获得Web访问用户的信息需求,这对于更加合理的规划网站结构,对用户提供个性化服务,为电子商务网站2.1Web访问路径经营者发现潜在的客户等,都提供了非常有价值的信息。目原始的Web日志数据中都不同程度地存在着缺失、谬误前针对Web日志的分析方法很多,聚类作为一种重要的数据等噪音数据,所以必须进行预处理。经过过滤、用户识别
6、、会挖掘技术,已经在Web日志挖掘中得到了广泛的应用。话识别等步骤,就得到了包含用户访问路径的日志文件,这里[6]然而,相比于在传统数据挖掘中,聚类技术在Web日志我们使用DePaul大学提供的标准数据集。数据主要来自挖掘中的应用仍有不少值得探讨的问题。在Web日志挖掘DePaulCTIWeb服务器(http://www.cs.depaul.edu),数据中,计算用户访问路径的相似度是聚类过程中十分重要的步的采集是随机抽取在2002年4月的两个星期中访问这个网骤之一。到目前为止,用户访问路径间相似度的计算大部分站的用户。每个会话(访问路径)以如下所示的一
7、行作为会话[2]都是基于集合之间的交集运算,如夹角余弦方法或Jaccard的开始(见表1):SESSION#n(USER_ID=k),其中n表示[3]相关系数计算法,基于非欧式距离的序列排列方法会话序号,k表示用户的ID。在一个给定的会话中,每一行对(SAM),[4]多维序列排列方法等。正如我们所知,用户访问应用户发出的一个页面请求,包含三个域:时间戳,请求页面路径是指用户在一段时间内依次访问的页面的集合,然而这和引用页面。时间戳域表示用户访问页面的时间相距2002些相似度计算方法或者没有把访问路径作为一种序列来考年1月1日的秒数。请求页面域的地址是以相
8、对于DePaul虑,或者没有考虑用户访问时的时间因素。CTIWeb服务器的相对地