欢迎来到天天文库
浏览记录
ID:39402474
大小:822.50 KB
页数:70页
时间:2019-07-02
《基于模糊聚类的Web日志挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、复旦大学硕士学位论文基于模糊聚类的Web日志挖掘研究姓名:魏帆申请学位级别:硕士专业:通信与信息系统指导教师:凌力20070415基于模糊聚娄的Web日志挖掘研究复旦大学硕士学位论文图表目录图1-1Web用户访问模式挖掘系统的分类11图2-2Web日志挖掘的过程……………………………….错误!未定义书签。图2-3Web日志挖掘中的数据预处理过程……………………………………2l表4-1Web服务器访问日志举例………………………………………………30表4.2logtable结构……………………………………………………………3l图4-2会话识别算
2、法描述………………………………………………………33表4-3网站层次结构对会话相似度的影响举例………………………………34表4.3用户浏览网页的时间对会话相似度的影响举例………………………35表5-4聚类结果总结……………………………………….………...…………..5l表5-5聚类结果的表示…………………...…………………………………….51表5.5各聚类的类内距离和类间距离…...…………………………………….52图5-5部分聚类结果………………………………………………...………….53图5_6各聚类中心的类间距离(RFCMdd)…
3、………………………………54图5.7各聚类中心的类间距离(DH—RFCMdd)…………………………….55图6-1系统的体系结构…………………………………………………………58表6-1日志记录和数据预处理功能表结构……………………………………59表6-2用户聚类模式库表结构…………………………………………………61图6-2根据用户聚类模式库生成推荐集合的算法……………………………6l图6-3部署在Apache服务器上的网站首页…………………………………・62图6-4当用户会话长度没有达到临界长度时的页面显示……………………63图6.5当前用
4、户访f司/machines/manufacturers/default.htm时页面的显示。64图6-6当前用户访t习lmachincslcategories/default.htm时页面的显示……。657基于模糊聚类的Web日志挖掘研究复且大学硬士学位论文基于模糊聚类的Web日志挖掘研究摘要随着Internet的迅速发展,“信息迷航”和“信息过载”的问题日益制约人们高效地使用Interne信息。为了解决这一严峻的问题,很多研究者提出了个性化推荐系统的概念,即根据用户的兴趣和特点推荐用户感兴趣的信息。而目前应用最广泛的个性化推荐系统应当属个
5、性化推荐网站了。具体的说就是当用户在访问个性化网站的时候,总有一种感觉,好像整个网站都是为他设计的,特别友好,一切都是那么有用,都是自己当前很感兴趣的东西。因此,使用数据挖掘和人工智能等相关技术对用户的浏览行为进行分析,即对Web日志进行挖掘已经成为提供个性化服务的一个重要方法。目前,国内外对Web日志挖掘的研究主要集中在对用户会话的研究上,包括关联规则、协同过滤、聚类和分类等,其中。聚类技术常被用来分析网站用户对网页的兴趣爱好。但是,传统硬性的聚类只能将用户会话类归于单一聚类中,即事先假设每一个会话只包含单一的兴趣爱好,却忽略该会话可能包
6、含多个兴趣爱好。因此,有学者将模糊聚类应用其中。模糊聚类算法按照数据对象的不同,可以分为特征向量聚类算法和关系数据聚类算法。对于关系数据聚类算法,国内目前使用较多是基于模糊等价关系矩阵的聚类算法,而对于基于目标函数的关系聚类算法研究并不多。同时,在分析用户会话相似度时,往往是根据会话之间相同网页的数量或者网站的层次结构来定义会话相似度,而忽略了用户在会话中对各个网页的访问时间,所以容易产生错误的分析结果。本文正是在这一背景下,以WebN务器日志为研究对象,研究了Web日志挖掘领域相关的技术,对其中Web日志预处理、模糊聚类算法以及个性化网站
7、的体系结构等进行了研究和改进,并部分实现了一个具备推荐功能的个性化网站的系统原型。’本文的主要工作如下:1.提出了一个改进的用户会话相似度的计算方法。该方法既考虑了用户会话之间相同网页的数量对会话相似度的影响,同时又考虑了网站的层次结构和用户在网页上的停留时间对会话相似度的影响,这样可以更加准确的反映用户会话之间的相似度。2.提出了一个改进的Web日志数据聚类算法一基于分裂层次的RFCMdd(RobustFuzzyCMedoids)。RFCMdd算法是一种健壮的,运行速度快,并适合于大数据量数据的模糊分割聚类算法。不过RFCMdd也有传统分
8、割聚类算法的缺点:对初始聚类中心敏感和聚类的个数必须事先给出。这容易导致聚类的主观性和随意性,会影响到正确的聚类结果。而分裂层次算法的优点就在于通过分裂的方法来决定最终聚类的个数
此文档下载收益归作者所有