欢迎来到天天文库
浏览记录
ID:32434144
大小:2.34 MB
页数:67页
时间:2019-02-04
《基于web服务器日志挖掘数据预处理技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采
2、用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据摘要摘要随着Web技术的逐渐成熟以及浏览器的广泛使用,用户通过互联网所能获取的信息量呈现指数级的速度增长。Web的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效的获取有价值的知识带来了不小的挑战。如何通过Web文档的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来对用户提供个性化、智能化的信息服务已成为人们的迫切需求。Web日志挖掘正是在这种背景环境下产生的。文本主要对基于Web服务器日志挖掘的数据预处理相关技术进行研究。首先,简
3、要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状。然后,本文对数据挖掘的基本过程、常用算法及研究意义进行了简要介绍,并对Web数据挖掘的难点和分类进行了总结,重点阐述了其中的Web日志挖掘,并对其中的数据预处理相关技术进行概括。接着,本文介绍了当前常用的一种基于Timeout页面时间阀值的会话识别方法,在此基础上提出一种基于页面的标准浏览时间、装载时间、以及页面的链接结构等影响因素得到用户对每个页面的浏览时间阀值的会话识别方法,并依据用户对页面的浏览兴趣进行会话清理,为后期的数据挖掘提供较为准确的会话数据。通过实验仿真说明改进会话识别方
4、法的有效性。最后,在会话识别的基础上,对会话矩阵进行聚类分析。介绍了传统的基于k均值算法的聚类分析方法,本文在此方法的基础上,综合考虑初始重心之间的距离和初始重心所处区域的密度等因素。提出了一种基于改进k均值算法的会话聚类分析方法,通过实验仿真可知,改进k均值算法不仅能提高会话聚类的时间效率,而且还使会话聚类结果更加紧凑和独立,提高了整体聚类质量。本文在已有研究的基础上,主要做了以下几个方面的创新研究工作。首先探讨了Web服务器日志挖掘中的一个关键问题,即Web日志的数据预处理问题。针对当前常用的一种基于Timeout页面时间阀值的会话识别方法的不足,根据用户
5、对页面的浏览兴趣提出了一种改进的会话识别方案。其次本文通过改进k均值算法进行会话聚类,有效的提高了整体聚类质量。关键词:数据挖掘,Web日志挖掘,日志预处理,会话识别,会话聚类I万方数据ABSTRACTABSTRACTRecently,withtherapiddevelopmentofWebtechnologyandthewidespreaduseofthebrowser.theinformationtypeandcontentontheWebhasbecomeveryrich.Webbringspeoplerichinformationandgreatconve
6、nience,meanwhile,howtodiscovervaluableinformationeffectivelyhasbecomeadifficultytotheuser.Anewtechnologyisurgentlyneededtoautomaticallyfindpotentialandvaluableinformationfromthevarietywebresourcesandlocations.TheWeblogmining(alsoknowasWebstructuremining)emergedasthetimesrequireinthissi
7、tuation.Webmininginserveraccesslogsiscategoriesinfourphases:datacollection,datapreprocessing,patterndiscovery,patternanalysis.WemainlystudyaboutdatapreprocessinginWeblogmininginthispaper.Firstly,thebackground,source,significanceandmaincontentofthisworkareintroduced,andtheexistingrela
此文档下载收益归作者所有