【硕士论文】Web日志挖掘相关技术及算法的研究.pdf

【硕士论文】Web日志挖掘相关技术及算法的研究.pdf

ID:32021244

大小:2.48 MB

页数:63页

时间:2019-01-30

【硕士论文】Web日志挖掘相关技术及算法的研究.pdf_第1页
【硕士论文】Web日志挖掘相关技术及算法的研究.pdf_第2页
【硕士论文】Web日志挖掘相关技术及算法的研究.pdf_第3页
【硕士论文】Web日志挖掘相关技术及算法的研究.pdf_第4页
【硕士论文】Web日志挖掘相关技术及算法的研究.pdf_第5页
资源描述:

《【硕士论文】Web日志挖掘相关技术及算法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号:——UDC:——工学硕士学位论文密级:——编号:——Web日志挖掘相关技术及算法的研究硕士研究生:郭笑语指导教师:宁慧副教授学位级别:工学硕士学科、专业:计算机系统结构所在单位:计算机科学与技术学院论文提交日期:2009年1月12日论文答辩日期:2009年3月11日学位授予单位:哈尔滨工程大学哈尔滨T程大学硕士学位论文摘要随着互联网的发展与快速普及,Web站点无论在访问量、大小还是在网站设计的复杂度上都以惊人的速度增长着,在给人们带来丰富信息和极大便利的同时,也对自身的设计和功能提出了更高的要求。如何了解用户的

2、兴趣和爱好,分析用户的浏览行为,使站点结构变得更加合理,更好的挖掘站点潜在的商业价值,解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志挖掘,并针对Web日志的新特性,对传统挖掘方法进行扩展和改进。目前,Web日志挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。本文系统地阐述了论文的研究背景及Web日志挖掘的整个过程。首先,在日志预处理过程中,结合用户浏览行为和基于内存的挖掘算法提出了一种新的最大向前引用识别用户访问事务识别方法(IMFR),该方法可以有效避免用户不感兴趣的导航页面

3、对挖掘结果的干扰。其次,在对频繁模式算法和FP.tree进行了深入研究的基础上,提出了IFP.tree构造算法,采用动态节点插入技术构造频繁模式树,该算法可以有效缩小树的宽度以达到压缩数据空间的目的,同时提高前缀路径的共享性,使基于此树的挖掘算法具有更高的效率。再次,本文在IFP-tree结构的基础上对最大频繁模式挖掘算法FPmax进一步优化,提出了IFPmax算法,利用结点的秩进行子集检测前的预判断,根据最大频繁模式的性质对已经存在的结点进行标记,有效避免了结点的冗余遍历,为最大频繁模式挖掘算法提高了时间效率。最后,

4、通过实验证明改进算法的优越性,结果表明在数据库较大或最小支持度较低时性能提高更加明显。关键词:Web日志挖掘;数据预处理:频繁模式;FP.tree;最大频繁模式哈尔滨T程大学硕士学1::7=论文AbstractWiththerapiddevelopmentandpopularityofInternettechniques,theWebcontinuestogrowatallastounding.rateinboththesheervolumeoftrafficandthesizeandcomplexityofwebsi

5、tesdesign.Webbringspeoplerichinformationandgreatconvenience,meanwhilethehighrequirementisdesiredonthedesignandfunctionofwebsites.ItisimportantforUStolearnabouttheuser’SinterestsandanalyzethebrowsingpattemssoastOrationalizethestructureofwebsitesandminepotentially

6、commercialvalue.Oneofthesolutionstothesequestionsisemployingtraditionaldataminingtechniquesonweblogs.Thatistosay,basingontheprinciplesandideasofdatamining,inaccordancewiththenewcharacteristicsofweblogs,thetraditionalwayofminingisexpandedandimproved.Weblogsmining

7、hasbecomeanewandimportantresearchfieldintheworldanditsresearchisofgreatrealisticsignificance.Theentireprocessofwebdataminingandweblogsdataminingissystematicallyintroducedinthisthesis.Firstty,inthedatapre-processofweblogs,anewMaximalForwardReferencetransactionpar

8、titionmethodisproposed,ThemethodCaneffectivelyavoidconfusionoftheminingresultsbyuninterestingnavigationpages.Secondly,bymakingade印researchonalgorithmsoffrequentpatter

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。