基于Web日志挖掘的用户聚类研究.pdf

基于Web日志挖掘的用户聚类研究.pdf

ID:57744996

大小:1.19 MB

页数:75页

时间:2020-03-27

基于Web日志挖掘的用户聚类研究.pdf_第1页
基于Web日志挖掘的用户聚类研究.pdf_第2页
基于Web日志挖掘的用户聚类研究.pdf_第3页
基于Web日志挖掘的用户聚类研究.pdf_第4页
基于Web日志挖掘的用户聚类研究.pdf_第5页
资源描述:

《基于Web日志挖掘的用户聚类研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、代号107011070110701学号0700700700070000040017040017040017040017分类号TP311TP311.13TP311.13.13.13密级公开题(((中(中中中、、、、英文英文)))目基于WebWeb日志挖掘的用户聚类研究Web日志挖掘的用户聚类研究ResearchResearchResearchononononUsersClusteringBasedoUsersClusteringBasedoUsersClusteringBasedonWebLogMUsersClusteringBasedonWebLogMnWebLogMin

2、nWebLogMininininging作者姓名牛晓晨指导教师姓名、、职务、职务姜建国教授学科门类工学学科、、专业、专业计算机应用技术提交论文日期二二二○○○一一年六六六月月月九九九日日日西安电子科技大学学位论文独创性声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了

3、谢意。申请学位论文与资料若有不实之处,本人承担一切法律责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属于保密,在年解密后适用本授权书。本人签名:日期导师签名:日期摘要随着Interne

4、t的不断发展,信息快速增长与人们注意力有限的矛盾在不断增加,而Web日志挖掘正是解决这一矛盾的有效手段。日志文件记录了用户的地址、访问时间、方法、网页和页面信息大小等访问信息和交互信息。利用Web日志挖掘技术对日志文件进行挖掘可以发现用户访问网站的浏览模式及网站页面之间的关系,为用户个性化服务以及页面改造和网站整体架构优化提供有益的指导。本文对Web日志挖掘的基本理论和挖掘中使用的模糊聚类算法进行了深入研究,对其中存在的问题提出了新的见解和改进,主要创新点与改进内容如下:(1)数据预处理在Web日志挖掘过程中起着至关重要的作用,是为数据挖掘算法提供有效输入和获取有价值的挖

5、掘结果的前提条件。而数据预处理阶段的一个关键问题就是如何获取网站拓扑结构,本文提出了一种通过Web服务器的日志文件来获取网站拓扑结构的新方法,并通过实验验证了新方法的有效性和准确性。(2)用户访问路径是Web用户聚类时度量用户兴趣度的参数之一,针对目前访问路径兴趣度表示的不足,本文结合日志记录的特点,从参数的数学特征出发,设计了一种基于二进制数表示的访问路径矩阵来度量用户的兴趣度,并给出了新的相异度矩阵的构造方法。实验表明,本文提出的访问路径矩阵是可行的,生成的相异度矩阵在表现用户访问路径差异上是准确的。(3)本文研究分析了数据挖掘中的模糊C-均值聚类算法(FCM)。针对

6、算法中初始聚类中心选取的随机性导致聚类正确性与效率下降的问题,结合相异度矩阵,提出了一种改进的模糊C-均值聚类算法对Web用户进行聚类。通过实验分析,验证了改进的FCM算法的可行性和正确性。本文提出的新方法和改进的算法具有较好的实用性,下一步的研究内容将是设计高效的基于Web日志的数据挖掘系统,同时找出阈值与最佳聚类数之间的对应关系。关键词:Web日志挖掘拓扑结构访问路径矩阵Web用户聚类模糊C均值ABSTRACTWiththedevelopmentoftheInternet,thecontradictionbetweenrapidgrowthoftheinformati

7、onandthepeople’slimitedattentionisunceasinglyincreasing,buttheweblogminingisaneffectivemeanstosolveit.Webserversregisteralogentryforeverysingleaccesstheyget,inwhichimportantinformationaboutaccessingarerecorded,includingIPaddresses,dateandtimestamp,method,URLrequeste

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。