欢迎来到天天文库
浏览记录
ID:33289744
大小:2.19 MB
页数:57页
时间:2019-02-23
《web日志挖掘的相关技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西南交通大学硕士学位论文Web日志挖掘的相关技术研究姓名:郭艳军申请学位级别:硕士专业:计算机应用技术指导教师:戴齐20080501西南交通大学硕士研究生学位论文第1页摘要随着Internet的迅速发展和不断普及,Web日志资源越来越多,如何分析和利用这些海量数据是当前突出的问题。Web日志挖掘是网络信息处理的一种新的技术,也是数据挖掘在Intemet领域的一个重要应用。Web日志挖掘是将数据挖掘技术用于Web服务器日志以获取有规律性的知识和用户的访问行为模式,从而改善Web站点的组织结构,提高站点的
2、访问质量,改进网站的性能。数据预处理是Web日志挖掘的重要环节,它决定模式发现和模式分析算法的性能。Web日志预处理主要包括5个环节:数据清理、用户识别、会话识别、路径补充和事务识别。本文对Web日志预处理的各个环节进行了研究,并介绍了各个环节的相关方法。在分析目前会话构造算法的基础上提出了将两种时间窗口结合来构造会话的方法。频繁序列模式挖掘是Web日志挖掘的一个重要研究方向,由于类Apriroi的序列模式挖掘算法要扫描序列数据库多次,且会产生庞大的候选集。本文采用了WAP.Tree结构来存储事务序列
3、,只需扫描数据库两次,由于WAP.Mine算法要递归的产生条件子树,耗费内存空间。针对在WAP.Tree树上的挖掘算法WAP.Mine的不足,提出了基于WAP.Tree的新挖掘算法NWAP.Mine算法,实验证明了算法的有效性。针对现有的序列模式挖掘算法没有考虑网页的权重,提出了基于平均停留时间的兴趣度定义,针对现有网页兴趣度存在的不足,提出了一种改进的网页兴趣度,并将该兴趣度作为权重应用到权重序列模式挖掘算法,找出用户感兴趣的访问路径。通过实验表明将改进后的兴趣度应用于序列模式挖掘能得到更能体现用户
4、访问行为的访问模式。关键词:Web日志挖掘:数据预处理;序列模式;兴趣度;访问模式树西南交通大学硕士研究生学位论文第1I页AbstractWiththerapiddevelopmentandincreasingpopularizationoftheIntemet,therearemoreandmoreWeblogresourcesavailablleontheweb.Howtoanalyzeandusethishugeamountofdatahasbecomeaseriousproblematpres
5、ent.WebLogMiningiSanewtechniquefornetworkinformationprocessing,andanimportantapplicationofdataminingontheinternet.WebLogMiningisanapplicationofdatamininginwebserverlogtoobtainthepatternandtheaccessbehaviorialmodeoftheusers.Thishelpstoimprovewebsitestruc
6、ture,itsaccessqualityanditsperformances.DatapreprocessingisanimportantstepoftheWebLogMining,whichdeterminestheperformanceofpatternrecognitionandpatternanalysisalgorithm.Weblogpreprocessingconsistsofdatacleanup,userrecognition,dialogrecognition,pathcompl
7、ementandtransactionrecognition.ThisthesisstudiedeachindividualstepsoftheWeblogpreprocessing,andintroducedtherelaventmethodstoeachparts.Basedontheanalysisforthecurrentdialogstructuralalgorithms,amethodforestabilishingadialogbycombiningtwotimewindowswaspr
8、esented.FrequentSequentialPatternMiningisallimportantresearchfieldofWebLogMining.SincethesequentialpatternminingalgorithmoftheclassApriroineedstostallsequencedatabasemultipletimes,whichproducesenormoussetsofcandidatedata,WAP—Tree
此文档下载收益归作者所有