欢迎来到天天文库
浏览记录
ID:6073730
大小:29.00 KB
页数:7页
时间:2018-01-02
《基于web日志浏览兴趣度研究技术探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Web日志浏览兴趣度研究技术探究 摘要:本论文主要针对Web挖掘领域中的Web日志挖掘领域,分析了已有的度量用户浏览兴趣方式的不足,提出了一种基于用户浏览行为度量用户浏览兴趣的方法,并通过线性回归预测方法预测了浏览兴趣度,建立了更准确的浏览访问路径树。实验表明,该方法是可行的并且具有较好的效果。Abstract:ThispaperismainlyinthefieldofWebMiningWeblogminingareas.Asameasureoftheuser’sbrowser,ithasanalyzedinthelackofme
2、ans,onthebasisofthis,ameasurebasedonuserbrowsinginterestisproposedinthewayoftheuser’sbrowser,andthroughthelinearregressionforecastingmethodstopredictthedegreeofinterest,andestablishamoreaccurateviewoftheaccesspathtree.Theexperimentsshowthatthemethodisfeasibleandhasachiev
3、edgoodresults.关键词:Web日志挖掘;浏览兴趣度;线性回归方程;访问路径树Keywords:Weblogmining;viewdegreeofinterest;linearregressionequation;accesspathtree7中图分类号:TP393文献标识码:A文章编号:1006-4311(2013)33-0175-020引言Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,解决网络用户的个性化服务问题。目前人们已经在Web信息个性化服务的一些基本问题的研究工作上取得了一些成果,但如何将解决这些
4、基本问题的方法有机地结合起来,以实现Web个性化服务,有必要继续研究。1Web日志挖掘技术1.1Web挖掘基本概念及应用Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘,可以发现潜在客户,延长客户的驻留时间,改进站点设计等。1.2Web日志的挖掘过程Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。2基于用户浏
5、览行为的挖掘实现7在目前已有的数据挖掘的实现方式中,主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取浏览信息。这种方式主要有以下缺点:①利用缓存进行的访问在服务器端不被记录;用户按后退键,利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。②当用户通过代理进行浏览时只能通过用户注册的方式获取用户身份标志。③在代理中,只能找到用户浏览了哪些网页,不能准确地知道用户对其的浏览时长。④服务器负担重。如何将解决这些基本问题的方法有机地结合起来,以实现Web个性化服务,还较少提出过完整的解决方案,
6、有必要继续在这一方面进行研究。3利用线性回归预测方法预测页面浏览兴趣度3.1Web日志页面浏览兴趣度分析研究的“微差”如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题,目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度,应用数据挖掘技术获得用户的兴趣模型,但这些计算方法都存在不足。7基于以上分析,提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数,还能对回归的有效性(显著性)、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为:根据历
7、史的样本数据,建立多元线性回归的预测模型,从而在不需要未来样本数据的情况下,预测未来时刻多元线性回归模型中的回归参数,以及主要的模型精度评估指标。3.2兴趣度线性回归方程设计利用线性回归方程计算兴趣度关键是通过已有的兴趣度,访问次数,访问时间和接收字节数求出回归系数,其中访问次数,访问时间和接收字节数可通过Log得到。根据线性回归模型,假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关,线性方程建立如下:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε,其中α、β、γ、ε为回归系数。兴趣度主观设定为:很感兴趣,一般感兴趣,
8、偶尔感兴趣和不感兴趣。具体说明如下:在特定的时间内和特定的网页范围内,对于一个页面,若访问次数,访问时间和接收字节数大于等于平均值的1.5,则认为是很感兴趣的,兴趣度最小值设为80;若访问次数,访问时间和接
此文档下载收益归作者所有