欢迎来到天天文库
浏览记录
ID:9755844
大小:247.50 KB
页数:16页
时间:2018-05-07
《毕业设计(论文)-基于关联分析的web日志挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京财经大学本科毕业论文目录摘要1关键词1Abstract1Keywords1一、Web日志挖掘2(一)、数据预处理2(二)、模式发现4(三)、模式分析5二、关联分析5(一)关联规则5(二)Apriori方法简介7四、实证分析8(一)数据预处理8(二)模式发现9(三)模式分析10五、个性化推荐11六、结束语12参考文献13附录1516南京财经大学本科毕业论文基于关联分析的Web日志挖掘摘要:web日志挖掘是web数据挖掘中的一个重要组成部分,通过从Web访问日志中发现用户的访问模式,预测用户的浏览行为。本文主要介绍了we
2、b数据挖掘的一般过程及方法,对Apriori关联分析方法作了重点阐述,并利用该方法对某网站某天的部分web日志数据进行了实证分析,得出了用户浏览模式及网页内容之间的关联规则,找到单个用户在浏览页面兴趣爱好以及群体用户的浏览习惯,继而对网站的网页规划布局提出了个性化的意见。关键词:web日志挖掘;关联分析;实证分析WebLogMiningBasedOnAssociationAnalysisAbstract:Weblogminingisanimportantpartofwebdatamining,findingtheuser
3、'saccesspatternintheWebaccesslogs ,theresearchercanpredicttheuser'sbrowsingbehavior. ThisessayintroducesthemethodofAssociationanalysisinWeblogmining,espacallythemethodofApriori,atthesametime,weusethismethodtoanalysisaparticularsite’slogdatatofindtheusers’browsing
4、patternsandassociationrulesbetweenwebpages;Italsofindsthebrowsinginterestofasingleuserandgroupsusers’browsinghabits,allafterthen,weputforwardsomeindividualsuggestionsonwebplanning.Keywords:Weblogmining;Associationanalysis;Positiveanalysis16南京财经大学本科毕业论文随着WWW在深度和广度
5、上的发展,Internet也前所未有地改变着我们的生活,数据信息已经在这个时代爆炸了。但是,我们又不得不面对“人们被数据淹没,人们却饥饿于知识”的现实。随着兴起与20世纪80年代末的数据挖掘在web上的应用,从某种程度上改善了上述情况。根据所挖掘的Web数据的类型,可以将Web数据挖掘分为以下三类:Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用挖掘(WebUsageMining)(也称为Web日志挖掘)。Web日志挖掘是指采用数据挖掘的技术,通过对W
6、eb服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前,web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。一、Web日志挖掘Web日志挖掘主要是通过对web浏览的日志数据的分析,发现用户的浏览模式,更好地规划站点。下面是一段日志:①2006-10-1700:00:00②202.200.44.43③218.77.130.2480④GET⑤/fa
7、vicon.ico⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/+Firefox/1.5.0.3。主要包括:①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。Web日志挖掘一般都包含以下几个过程:(一)数据预处理数据预处理是Web日志挖掘的首要环节,其任务是将原始日志数据转换成适合数据挖掘和模式发现所必需的格式,16南京财经大学本
8、科毕业论文预处理可以直接简化数据挖掘过程,使结果更具客观性。数据预处理包括数据净化、用户识别、会话识别、路径补充四个步骤。1.数据净化数据净化,是指将待处理的日志数据导入到关系数据库,删除Web日志数据中的错误值、缺失值等,同时把与Web数据挖掘无关的变量或数据进行清理,已达到简便运算的目的;2.用户识别用户识别,是
此文档下载收益归作者所有