web日志挖掘在网站优化中应用

web日志挖掘在网站优化中应用

ID:5984586

大小:27.50 KB

页数:6页

时间:2017-12-30

web日志挖掘在网站优化中应用_第1页
web日志挖掘在网站优化中应用_第2页
web日志挖掘在网站优化中应用_第3页
web日志挖掘在网站优化中应用_第4页
web日志挖掘在网站优化中应用_第5页
资源描述:

《web日志挖掘在网站优化中应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Web日志挖掘在网站优化中应用  摘要:网站成为互联网信息的主要来源。由站点主体提出需求,设计者规划实现,站点结构和网页布局按照需求设计为固定模式,用户必须按照这种模式对网站进行浏览。提出了对用户访问站点的行为进行挖掘来改进站点设计和布局,达到方便用户访问站点和实现客户个性化服务的目的。关键词关键词:Web挖掘;Web日志;网站优化;关联性分析;聚类分析中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2013)0080086020引言WWW是全球最大、最方便的信息来源,积聚了海量信息,成为人们工作、学习的最大支持平台。众多网站每天需要搜集和处理大量的数据,

2、积累大量的数据,数据量呈指数级增长,这些浩瀚信息往往隐藏了许多重要的信息。面对海量数据,人们往往无所适从,无法快速地找到自己想要的信息或有潜在价值的知识。6为了解决上述问题,本人提出了一种有效解决的方法:通过挖掘用户访问站点的日志构建或优化站点。Web服务器日志记录了Web服务器请求以及运行状态的各种原始信息,记录了关于用户访问和交互的信息,对其挖掘的主要目标则是从访问记录中提取用户感兴趣的知识。1网站优化服务模型一个较为成功的站点,一定是保持较高回头率和较长客户驻留时间的站点,针对这一特征,除了站点信息的自身质量外,要解决的问题主要是站点和页面的合理布局问题,这正如超市商品摆设

3、一样,摆放在一起有助于销售。利用关联规则发现有用的客户,动态调整站点的结构,使客户访问的有关联文件间的链接能够比较直接,让客户更容易访问到想访问的页面。根据用户访问习惯,将页面信息合理地呈现眼前也是站点优化任务之一,这正如顾客经常进入同一商场购买常买的商品一样,购买行为给他可能有两种感觉一样:方便和不方便,对于他来说要是他常买的商品摆放在商场入口将会给他的购买活动带来很大的方便。利用聚类分析将众多的访问行为分类,最大可能呈现给用户的是用户常用的信息。假设用户访问样本集W={w1,w2,…,wK},wi为用户的访问行为。样本数据预处理的目的是标准化数据、清除垃圾数据,删除与挖掘无关

4、的样本属性内容。经过预处理后的样本数据,就能进行关联性分析和聚类分析,将挖掘到的知识用于网站的优化。2优化服务实现过程6优化过程实际就是利用Web数据挖掘技术挖掘Web日志的过程,经过数据预处理、数据挖掘、站点优化的过程。2.1数据预处理预处理包括数据净化、用户识别、会话识别、路径补充和事务识别5个部分,预处理的数据来源是服务器日志,对日志进行预处理的结果直接影响挖掘算法获取规则与模式的效率。可以说预处理过程是Web日志挖掘质量保证的关键。数据净化任务是根据需求对原始日志文件进行处理,删除Web服务器中与挖掘无关的数据,比如:图片、视频等非用户显示请求的文件等,同时将有用的Web

5、日志记录信息转换为便于挖掘使用的数据格式,便于后期使用。用户识别即是要识别出每个用户,其识别过程采用三条启发式原则:①如果用户的IP地址不同则认为是不同的用户;②如果IP地址相同,但浏览器软件或操作系统不同,则认为是不同的用户;③如果IP地址相同,浏览器软件和操作系统也相同,那么根据网站的拓扑结构对用户进行识别,如果用户请求的页面不能从已访问的任何页面到达,则判断这是一个新的用户。会话识别将一系列的页面访问划分成若干独立的会话,最简单的方法就是使用时间戳方法,即如果两个文件请求的时间间隔大于一定的时6间阈值T1,则认为是浏览者开始了一次新的会话,通常规定T1=25.5min(很多

6、商业产品采用T1=30min,但是L.Catledge和J.PitKow试验所得数据指出25.5min更为合适)。路径补充主要是从本地缓存访问页面的问题。如果一个请求页面能够从已经访问过的任何一个页面到达,则认为该页面是从本地缓存请求的页面,将其添加到同一用户会话中。事务识别目的是找出会话中有意义的访问路径,常采用的方法为最大向前引用路径法。一个最大向前引用路径就相当于一个事务。向后运用意味着一个用户再次请求其浏览过的页面(如用户按下“返回”按钮),当一个向后应用发生时,说明向前引用终止,则得到的向前引用的路径为最大向前引用路径,或者当这个用户会话结束时,也得到最大向前引用。2.

7、2日志挖掘分析过程6想要客户能够快速访问自己想要的页面,就要找到当前信息的相关关联页面,和在临近主页位置能直接展现用户习惯访问页面,即构建关联页面和个性化页面,主要对客户访问的行为进行关联性分析和聚类分析。关联规则挖掘是在数据项目中找到所有的并发关联,使用关联性分析过程即为查找关联页面过程,常使用Apriori算法,算法见图1。聚类分析是将数据集中在某些方面相似的数据成员进行分类组织的过程,是一些数据实例的集合,集合间的数据元素彼此相似而区别其他集合的数据元素,使用聚类分析分析过

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。