欢迎来到天天文库
浏览记录
ID:34127555
大小:1.98 MB
页数:67页
时间:2019-03-03
《基于web日志挖掘的用户访问兴趣研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、有人武基汉于理Web工大日(申请工学硕士学位论文)志学挖掘的用户访基于Web日志挖掘的用户问兴趣访问兴趣研究研究赵晶培养单位:计算机科学与技术学院晶学科专业:计算机科学与技术研究生:赵晶晶指导老师:谭新明教授武汉理工大学2014年5月分类号密级万方数据UDC学校代码10497学位论文题目基于Web日志挖掘的用户访问兴趣研究英文ResearchonUserVisitInterestBasedon题目WebLogMining研究生姓名赵晶晶姓名谭新明职称教授学位博士指导教师单位名称计算机科学与技术学院邮编430063申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014年4月
2、论文答辩日期2014年5月学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年5月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅
3、和借阅。本人承诺所提交的学位论文(含电子学位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据武汉理工大学硕士学位论文摘要随着互联网技术的高速发展,网络上的信息量已经达到空前的规模,不论通过计算机还是手机人们都可以从网上获得自己想要的信息。如何从海量数据中快速准确获得有用的信息以及发掘其中潜在的有
4、价值的知识和模式,让互联网变得更加智能化,让人们获得更好的网络体验,这些成为了互联网时代亟待解决的问题。在此背景下Web数据挖掘技术应运而生,成为了解决上述难题的有效途径之一。Web数据挖掘主要包括Web内容挖掘、Web结构挖掘、Web日志挖掘三方面,本文主要研究背景为Web日志挖掘。由于Web日志数据具有高维、巨量、半结构或无结构等特性,传统的数据挖掘算法不能很好的满足性能需求,因此本文将群智能算法中的粒子群算法应用到了用户聚类中,通过实验验证了该算法在高维数据上的性能优于传统的聚类算法。本文首先研究了经典的聚类算法和粒子群优化算法的基本原理并比较分析了它们的优缺点。其次,针对
5、现有聚类算法中存在的易陷入局部最优、高维数据上性能不稳定等问题,提出了改进的基于K-means的粒子群算法,通过定义分散度来确定K-means算法的操作时机,充分利用了K-means算法的局部搜索能力和粒子群聚类算法的全局搜索能力,加快了收敛速度的同时也提高了解的精度。接着本文对粒子群算法中的惯性权重加以改进,引入适应度方差的概念,使惯性权重随适应度方差进行非线性地自适应调整。为了避免随机搜索导致的退化现象,在粒子群中还加入了一定概率的变异操作来降低聚类过早陷入局部最优解的可能性。然后,本文由分而治之的思想启发,构建了一种分层的Web日志挖掘方案。在对日志文件进行采集、清洗、事务
6、识别、特征提取等预处理后,先用本文提出的改进算法对日志数据进行用户聚类,再使用关联规则进行挖掘用户访问模式,减小了关联规则挖掘的规模和复杂度。最后,通过实验结果验证了本文改进的算法在普通和高维Web日志数据集上都具有聚类正确性高、迭代次数少、性能稳定等优势,并且能够有效地挖掘出明显的用户访问兴趣。关键字:Web日志挖掘,用户聚类,粒子群算法,自适应,K-meansI万方数据武汉理工大学硕士学位论文AbstractWiththerapiddevelopmentoftheInternettechnology,theamountofinformationontheInternethas
7、reachedanunprecedentedscale.Peoplecangetanyinformationtheywantwhetherfromthecomputerormobilephone.HowtogetmoreusefulinformationquicklyandaccuratelyfromthemassivedataandhowtoexplorethepotentialvaluableknowledgeandpatternstomaketheInternetmorei
此文档下载收益归作者所有