web日志挖掘的相关技术研究

web日志挖掘的相关技术研究

ID:33289744

大小:2.19 MB

页数:57页

时间:2019-02-23

web日志挖掘的相关技术研究_第1页
web日志挖掘的相关技术研究_第2页
web日志挖掘的相关技术研究_第3页
web日志挖掘的相关技术研究_第4页
web日志挖掘的相关技术研究_第5页
资源描述:

《web日志挖掘的相关技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南交通大学硕士学位论文Web日志挖掘的相关技术研究姓名:郭艳军申请学位级别:硕士专业:计算机应用技术指导教师:戴齐20080501西南交通大学硕士研究生学位论文第1页摘要随着Internet的迅速发展和不断普及,Web日志资源越来越多,如何分析和利用这些海量数据是当前突出的问题。Web日志挖掘是网络信息处理的一种新的技术,也是数据挖掘在Intemet领域的一个重要应用。Web日志挖掘是将数据挖掘技术用于Web服务器日志以获取有规律性的知识和用户的访问行为模式,从而改善Web站点的组织结构,提高站点的

2、访问质量,改进网站的性能。数据预处理是Web日志挖掘的重要环节,它决定模式发现和模式分析算法的性能。Web日志预处理主要包括5个环节:数据清理、用户识别、会话识别、路径补充和事务识别。本文对Web日志预处理的各个环节进行了研究,并介绍了各个环节的相关方法。在分析目前会话构造算法的基础上提出了将两种时间窗口结合来构造会话的方法。频繁序列模式挖掘是Web日志挖掘的一个重要研究方向,由于类Apriroi的序列模式挖掘算法要扫描序列数据库多次,且会产生庞大的候选集。本文采用了WAP.Tree结构来存储事务序列

3、,只需扫描数据库两次,由于WAP.Mine算法要递归的产生条件子树,耗费内存空间。针对在WAP.Tree树上的挖掘算法WAP.Mine的不足,提出了基于WAP.Tree的新挖掘算法NWAP.Mine算法,实验证明了算法的有效性。针对现有的序列模式挖掘算法没有考虑网页的权重,提出了基于平均停留时间的兴趣度定义,针对现有网页兴趣度存在的不足,提出了一种改进的网页兴趣度,并将该兴趣度作为权重应用到权重序列模式挖掘算法,找出用户感兴趣的访问路径。通过实验表明将改进后的兴趣度应用于序列模式挖掘能得到更能体现用户

4、访问行为的访问模式。关键词:Web日志挖掘:数据预处理;序列模式;兴趣度;访问模式树西南交通大学硕士研究生学位论文第1I页AbstractWiththerapiddevelopmentandincreasingpopularizationoftheIntemet,therearemoreandmoreWeblogresourcesavailablleontheweb.Howtoanalyzeandusethishugeamountofdatahasbecomeaseriousproblematpres

5、ent.WebLogMiningiSanewtechniquefornetworkinformationprocessing,andanimportantapplicationofdataminingontheinternet.WebLogMiningisanapplicationofdatamininginwebserverlogtoobtainthepatternandtheaccessbehaviorialmodeoftheusers.Thishelpstoimprovewebsitestruc

6、ture,itsaccessqualityanditsperformances.DatapreprocessingisanimportantstepoftheWebLogMining,whichdeterminestheperformanceofpatternrecognitionandpatternanalysisalgorithm.Weblogpreprocessingconsistsofdatacleanup,userrecognition,dialogrecognition,pathcompl

7、ementandtransactionrecognition.ThisthesisstudiedeachindividualstepsoftheWeblogpreprocessing,andintroducedtherelaventmethodstoeachparts.Basedontheanalysisforthecurrentdialogstructuralalgorithms,amethodforestabilishingadialogbycombiningtwotimewindowswaspr

8、esented.FrequentSequentialPatternMiningisallimportantresearchfieldofWebLogMining.SincethesequentialpatternminingalgorithmoftheclassApriroineedstostallsequencedatabasemultipletimes,whichproducesenormoussetsofcandidatedata,WAP—Tree

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。