欢迎来到天天文库
浏览记录
ID:1746817
大小:31.00 KB
页数:7页
时间:2017-11-13
《工商管理电子商务毕业论文 用户访问模式挖掘及在电子商务中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、湖南师范大学本科毕业论文考籍号:XXXXXXXXX姓名:XXX专业:工商管理电子商务论文题目:用户访问模式挖掘及在电子商务中的应用指导老师:XXX二〇一一年十二月十日摘要:当今电子商务网站日益增多,网站所提供的功能和服务也越来越丰富,然而也存在不足。比如,提供的服务或信息分布不合理,未能充分考虑到用户的需求;信息的访问路径未能考虑到信息的重要性和普遍关注性等等。本文研究将集中在基于图结构的用户访问模式挖掘及其在电子商务中的应用上,通过对基于Web拓扑结构(图结构)挖掘用户访问模式的数据挖掘,可对已存在的Web站点的结构及站点内的页面进行调整和改善,方便地向浏览模式相
2、似的用户组推荐其感兴趣的主题相似的页面,使各类信息和服务以更有效的方式提供给用户。 关键词:数据挖掘Web日志挖掘用户访问模式Web拓扑结构 一、引言 近几年因特网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,逐渐渗透到人们的日常工作、生活及其它领域,它为用户提供了各种信息。然而,用户面对一堆杂乱无章的信息往往花费了大量的精力却无法找到理想的结果。如何有效得分析用户的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源,已经成为一项迫切而重要的课题。解决这些问题的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。其
3、中的Web日志挖掘可以掌握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,提高站点的服务质量等方面有重要的意义。 二、Web数据挖掘概述 (一)Web数据挖掘的定义及分类 Web数据挖掘我们这里采用一个更一般的定义:Web数据挖掘是指从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。 Web信息的多样性决定了Web挖掘任务的多样性,Web数据挖掘总的来说分为内容挖掘、结构挖掘和日志挖掘三类,如图l所示: (二)Web日志挖掘 Web日志挖掘也称Web使用挖掘,是指从W
4、eb使用数据中抽取用户访问模式的过程。 一般Web日志挖掘的过程分为以下三步: 1.数据准备:对Web日志内容进行预处理,删除无用数据,识别用户会话,完善访问路径。 2.模式识别:采用相应的数据挖掘算法,对预处理之后的数据进行挖掘,生成模式。 3.模式分析:排除模式识别中没有价值的规则或模式,将有价值的模式提取出来。 三、基于图结构的Web日志挖掘 (一)数据准备 1.数据源 目前的Web日志挖掘的数据源主要是Web服务器日志文件,它记录了用户访问站点的数据,每当站点上的页面被访问一次,Web服务器就在日志中增加一条相应的记录。服务器上的日志
5、不仅详细记录了站点访问者的浏览行为,而且汇集了访问同一站点的多个访问者的行为。 2.数据预处理 在Web日志挖掘中,主要分析的数据源是服务器日志,但是由于服务器日志记录的数据并不完整,直接在其上进行挖掘非常困难。因此要对日志数据进行预处理主要包括以下步骤: 数据转换:将原始日志文件导入数据库中。 数据清理:删除与日志分析目的无关的记录。 用户识别:将用户和请求的页面相关联。 会话识别:将用户在一段时间内的请求页面分解成能反映实际浏览习惯的用户会话。 路径补充:将本地或者代理服务器中缓存而没有被日志记录的请求页面增加到会话中。 (二)基于图结构的用
6、户访问模式挖掘 本文中的算法在现有的挖掘关联规则算法的基础上上进行延伸,并且在支持度计算,候选路径的产生和剪除阶段时考虑网站的图结构。这样,在候选集的生成和剪除过程中减少了候选集的数量,可提高发现模式的精确性和效率,并且避免了“交易变质”的问题。首先,分析站点结构,并给出“图”的相关定义和定理。其次,对现有的Web日志挖掘方法进行简单的介绍和分析。接着,给出基于图结构的用户访问模式挖掘算法。 1.站点结构的分析 每个Web网站并不是平面结构,而是有自己的特定结构。我们可将Web结构看作是一个多层的模型,每个层面包含很多页面,这些页面上有很多文本、图片、音乐
7、等页面元素组成,它们可以链接本层面或其他层面的页面元素。 Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其它的页面。所以Web页面之间的超链接揭示了Web结构。通过对Web结构的分析可对Web数据挖掘有很大的帮助,如图4,某站点拓扑结构示例图。 2.基于图结构的用户访问模式挖掘算法 Web用户访问模式的挖掘过程可描述为:把用户会话序列看成是对图的遍历,结合数据库和Web图结构确定访问的最大向前路径。从中找出支持度
此文档下载收益归作者所有