【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf

【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf

ID:32021185

大小:4.59 MB

页数:40页

时间:2019-01-30

【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf_第1页
【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf_第2页
【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf_第3页
【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf_第4页
【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf_第5页
资源描述:

《【硕士论文】Web使用挖掘及其在网站优化中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要Web使用挖掘及其在网站优化中的应用农业机械化工程专业硕士研究生田倩飞指导教师左源瑞副教授摘要W曲使用挖掘的研究对象是W曲日志数据。Web日志数据记录了用户对w曲站点的访问信息,对这些信息进行分析可以发现用户访问站点的浏览模式和访问习惯,可帮助实现网页的预存取和缓存;对于页面重组、优化网站的结构等方面都具有十分重要的意义。本文对Web使用日志这些半结构化的数据进行预处理,结合实例网站的实际数据,创建了适合实例网站的点击流数据仓库模型,然后运用SQL2005AnalysisService中的SequenceCluster模型进行数据挖掘,最后对数据挖掘结果进行数据分析,给网站的管

2、理者提供网站结构优化的建议。论文所做的主要工作如下:1.对数据挖掘和Web使用挖掘的相关知识和技术进行了概述,阐述了Web使用挖掘的意义、研究现状以及面临的问题;2.讨论了Web使用挖掘的三个阶段:数据预处理、模式识别和模式分析,分析了W曲使用挖掘的应用领域和研究方向:3.为数据预处理的数据采集、数据净化、用户识别和会话识别等部分提供了详细的算法。Web日志数据通过这些算法进行预处理后,·为数据仓库的建立提供了可靠的准备数据。4.利用日志分析工具DeepLogAnalyzer对经过预处理的日志数据进行分析,得到基本的统计数据及图表。接着分析建立点击流数据仓库的必要性。根据MarkS

3、weiger等提供的标准点击流仓库模型,提出适合实例网站的数据仓库逻辑模型,并在此逻辑模型的基础上,建立相应的物理模型。5.最后将上述的数据预处理算法和数据仓库模型应用在实例网站的访问日志中,然后运用SQLServer2005AnalysisService中的SequenceCluster模型分析数据仓库中的数据,并将分析结果应用于网站结构的调整。关键词:Web使用挖掘:日志预处理;点击流数据仓库;序列聚类;网站优化文献综述。IIiill————!文献综述随着Intenlet在全球范围的迅速普及和应用,Web信息量正以惊人的速度增长。如何快速、有效地发现有用的信息资源已成为亟待解决

4、的问题。Web挖掘作为一种从Web的海量信息中挖掘有用知识的技术,从一出现就受到了广泛的关注。Web上信息的多样性决定了Web挖掘任务的多样性,根据挖掘对象的不同,可以将Web挖掘分为W曲内容挖掘、w曲结构挖掘和Web使用挖掘三大类【l】。其中,Web使用挖掘是挖掘Web服务器日志获取的信息来预测用户浏览行为的技术,从用户的访问日志中挖掘用户的访问模式,为网站经营管理和结构调整提供决策支持,为企业发现新市场机会、进行市场决策、提高网站的营销效果以及为企业进行战略决策提供有价值的潜在的信息。Web数据挖掘的研究应用工作自1996年由M.S.Chen,H.Mannila,T.Yan,O

5、.Etzioni掣2】学者提出开始到现在已有13年的发展历程。通过大量学者、技术人员的努力,·已经取得了很大的成绩,这其中大量工作源于国外的一些学者和研究机构。Marmila和Chen在研究过程中都假定去掉了图形文件、声音等多媒体文件。这样剩下的Web服务器日志就能如实反映用户在网站中的访问情况。Mannilat3】把用户访问页面当作事件,从网站访问日志中试着寻找用户访问网站的周期。Chertt4】提出了最大前向参引模型,同时也提出用这种方法来分解用户访问的会话成为一个个的事务,然后就可以在事务的基础上,挖掘用户访问模式。T.Yant5】研究了如何动态地根据用户当前访问提供推荐页面

6、。他首先对用户进行分类,然后根据同类用户访问过的页面情况,决定为当前用户提供的页面内容。Hart[6】把Web服务器访问日志集成到数据立方体结构中,这样就可以对访问日志用传统的在线数据分析处理过程来处理日志数据。因为其分析主要用的是动态网站日志,因此,他假定客户端的缓存影响不大。J.Borges[7】等人提出了引入超链接概率原理,修改了传统意义上对序列的界定,可以把用户的访问在网站结构中记录下来,根据访问的条件概率判断用户频繁访问路径。国内互联网业是从1997年开始迅速蓬勃地发展起来的。直到1999年,国内互联网用户达到一定数量后,国内学者才开始关注Web数据挖掘,相比之下起步较晚

7、。陈宁【8】综述了国外应用数据挖掘技术解决Intemet应用问题的做法。周斌【9】等介绍了采用E.OEM模型,并用5个用户访问模式做训练数据集,尝试着进行了关联规则挖掘。台湾学者Judy等【lo】人提出了TAM模型,对访问某网站的200个学生进行问卷调查,寻找评价网站提供信息质量的要素。西安交通大学的宋擒豹掣11】提出了以Web站点为行、以UserID为列建立URL.UserlD关联矩阵,元素值为用户的访问次数,利用矩阵的特性进行挖掘的新思路。随着研究的不断深入,We

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。