欢迎来到天天文库
浏览记录
ID:44050941
大小:296.57 KB
页数:46页
时间:2019-10-18
《基于模糊聚类的网站用户分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、摘要Web使用记录的挖掘已经成为当前数据挖掘领域中的一个热点。Web使用记录挖掘是应用数据挖掘技术从Web使用记录数据或Web口志数据中发现Web使用模式的过程。Web使用记录挖掘分为Web数据预处理(WebDataPreprocessing)、模式发现(PattemDiscovery)和模式分析(PatternAnalysis)三个阶段。本文对Web使用记录挖掘和聚类的定义、相关技术以及国内外研究现状进行了认真的归纳总结,并提出了基于Web使用记录挖掘的网站用户分析方案。基于Web使用记录挖掘的网站用户分析的基木思路是:分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而为网站
2、决策提供可以借鉴的用户行为分类。为了适应Web用户划分不确切性的实际情况,我们釆用了模糊K均值聚类算法;为了克服K均值方法对初始聚类中心点的依赖性,我们通过层次聚类先求出k个聚类中心点,在相当程度上减少了这种依赖性。我们还探讨了增量聚类技术,在数据不断增长的情况下,增量式聚类技术能够利用前期聚类的计算结果,充分提高聚类分析的效率。实验表明,新算法有效地提高了模糊K均值聚类算法的收敛速度。关键词:数据预处理,Web使用记录挖掘,模糊K均值聚类,层次聚类ABSTRACTWebusagemininghasbeenahotspotinthefieldofdatamining.Webusagemi
3、ningisaprocesstofindouttheusagepatternsofWebfromtheWebusagedataorthelogfileswiththedataminingtechniques-Webusagemininghasthreephases:Webdatapreprocessing,patternsdiscovery,andpatternsanalysis.ThepaperanalysesthedefinitionsofWebusageminingandclustering,theircorrespondingtechniquesandcurrentresearc
4、hstatus.Finally,wepresentaschemetoanalyzingtheWebusersbasedonthewebusagemining.TheessenceideaoftheWebusersanalysisbasedonthewebusageminingis:analyzingtheWeblogdata,usingthedataminingapproachestofindouttheuserspattern,andprovidingusefulusers5informationforwebmakingdecision.Becausetheuncertaintyoft
5、heusersegmentsweusethefuzzyk-meansclusteralgorithm;toovercomethedependenceonthecentersselectionweusethehierarchicalmethodtogetthecentersofkclusterfirst,whichdecreasesthisdependence.Wealsodiscusstheincrementclusteringtechniqueswhichcanimprovetheefficiencyofclusteranalysiswiththeprophaseresultstode
6、alwiththeincrementdata.Theexperimentindicatesthatthenewapproacheshaveimprovedtheastringencyofthefuzzyk-means.Keywords:Webdatapreprocessing,Webusagemining,Fuzzyk-means,hierarchicalmethod第一章绪论11」论文的研究背景及选题意义11.2WEB使用记录挖掘研究现状21.3本文结构和组织4第二章聚类分析技术基础52.1聚类分析概念52.1.1数据挖掘对聚类的要求52.1.2聚类分析屮的数据类型62.1.3主要聚类
7、方法的分类72.1.4层次聚类算法72.2模糊聚类82.2.1模糊聚类基础82.2.2模糊等价关系的传递闭包法92.2.3模糊相似关系的最大树法102.2.4模糊K均值112.3小结14第三章WEB数据预处理153.1日志文件153.2数据预处理的一般过程17321数据清理(DataCleaning)173.2.2用户识另U(UserIdentification)183.2.3会话识另!J(SessionIdentification
此文档下载收益归作者所有