web日志中用户访问序列模式挖掘地研究

web日志中用户访问序列模式挖掘地研究

ID:34129459

大小:2.58 MB

页数:60页

时间:2019-03-04

web日志中用户访问序列模式挖掘地研究_第1页
web日志中用户访问序列模式挖掘地研究_第2页
web日志中用户访问序列模式挖掘地研究_第3页
web日志中用户访问序列模式挖掘地研究_第4页
web日志中用户访问序列模式挖掘地研究_第5页
资源描述:

《web日志中用户访问序列模式挖掘地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明㈨IlllIlIl

2、I删lIlllⅢlII

3、

4、㈣111II删‘iY1824672本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重废整电盔堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:僻签字日期:v刁年钐u日学位论文版权使用授权书本学位论文作者完全了解重麽邮电太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘

5、,允许论文被查阅和借阅。本人授权重麽整电太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:解导师签名:勿张签字日期:卅年厂月y日签字日期:研年易月n重庆邮电大学硕士论文摘要随着Web应用的快速发展,Web数据挖掘成为数据挖掘的热点之一,根据Web挖掘的目的和数据对象的不同,web数据挖掘可以分为Web内容挖掘、Web结构挖掘、Web日志挖掘。Web日志挖掘是对用户访问网站是留下的日志文件使用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式,对优化站点结构和

6、为用户提供个性化服务具有重要的意义。在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。本文在对预处理各个步骤研究分析的基础上,提出了基于用户访问树的Web日志挖掘数据预处理方法,根据服务器用户访问日志建立用户访问树,并在用户访问树的基础上进行用户和事务识别,从而解决了在动态网站拓扑结构难以获取的情况下进行预处理的困难,并通过实验验证了该算法识别事务的准确性,为下一步序列模式挖掘打下坚实的基础。对于从Web日志中挖掘出用户的访问序列模式,传统的序列模式挖掘算法在挖掘时往往效率很低,它们采用的频繁模式搜索策略经常导致算法构造大量的中间数据。本文对当前

7、主要使用的PrefixSpan算法提出改进,在构建投影数据库时舍弃非频繁项存储并在投影序列数小于最小支持度时结束扫描投影数据库,同时通过检查序列关于前缀的前缀,避免序列数据库中重复投影数据库的产生以及对投影数据库进行的重复扫描,提高了算法执行效率,并通过实验对其时空性能与原算法进行对比。本文最后在前面工作的基础上,设计实现了一个w曲用户访问日志挖掘原型系统,并就原型的各模块进行了分析,通过对高校网站服务器的真实日志数据进行挖掘,展示了完整的W曲日志挖掘过程,实验证明系统是可行的和有效的,同时将得到用户访问序列模式提供给网站系统管理员参考以便更好地经营网站。关键词:数据挖掘,w

8、eb日志挖掘,Web日志预处理,序列模式挖掘重庆邮电大学硕士论文Absn:actAbstractWebdataminiI坞,illcludingwe_bstnlctllremiIliI唱,webcont肌tmilling觚dweblogm埘ng,isbecomingaIlaCtiVeresearchtopicofdatamilliI玛wimtherapiddevelopmentofwebapplyiIlg.Thewcb109m埘.mggetsmewebuseraCcesspatt印:lsby趾alyzingmeaccessinfomIationrecordedbyt11ecl

9、i钮t,meproxyaIldⅡ圮websen,er.Theresultofweblog1Ilillingcanbeusedt0refommestnlctureoftllewebsite,f-acilitateusers’browingandhelptopr0VidepersonalizedseⅣicetousers.Datapr印rocessingismeb嬲isof廿lewholeprocessofdatamiIlingi11weblogmiIliIlg,wtlichdirectlyillfluenCesmequal埘ofmeW曲log111illing觚ditsrcsu

10、lt.Amemodofdatapr印rocessinginweblogIIlilliI培baSedonmeuseraCcess仃eeisproposcdintllispaper.Theuseraccessn.eeiscreatedaCcordingtomeW曲109sinthepr印rocessinganditisllscdt0id翎ti矽theuseraIld仃ansaCtion.Somepr印rocessingcallbeworkedwellwithoutthesitetopology.Theexp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。