非页面日志信息在改进会话识别中的应用研究

非页面日志信息在改进会话识别中的应用研究

ID:46780466

大小:350.85 KB

页数:5页

时间:2019-11-27

非页面日志信息在改进会话识别中的应用研究_第1页
非页面日志信息在改进会话识别中的应用研究_第2页
非页面日志信息在改进会话识别中的应用研究_第3页
非页面日志信息在改进会话识别中的应用研究_第4页
非页面日志信息在改进会话识别中的应用研究_第5页
资源描述:

《非页面日志信息在改进会话识别中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2010年2月沈阳航空工业学院学报第27卷第l期JournalofShenyangInstituteofAeronauticalEngineeringFeb.20lOV01.27No.1文章编号:1007—1385(2010)01—0060一05非页面日志信息在改进会话识别中的应用研究姜宏飞范纯龙徐蕾(沈阳航空工业学院计算机学院,辽宁沈阳110136)摘要:会话识别是web日志挖掘数据预处理的关键步骤,其质量对日志挖掘结果有重要影响。文章介绍了现有的会话识别方法,提出了利用数据清洗中废弃的图片等日志数据和web图结构,改进会话识别中的页面分组规则和路径补全算法,并通过实验证实方

2、法对改善会话识别质量是有效的。关键词:会话识别;数据预处理;web图结构中图分类号:TP393.08文献标识码:AWeb访问挖掘就是利用数据挖掘技术对网站的访问数据及其相关数据集进行分析挖掘,从中获得有关网站访问使用情况的模式知识。Web日志挖掘过程主要由数据预处理、模式发现和模式分析三部分组成。因此,数据预处理的好坏将直接影响到后面两个阶段的结果,而会话识别则是影响数据预处理质量的核心因素。会话是客户对服务器的一次有效访问,它包括客户在一定时间内访问过的页面集和用户在页面间遍历的访问路径两个方面。识别出一组准确、可靠的会话集是下一步数据分析的基础,会话识别的数据来源是经过数据

3、清洗和用户识别后的日志数据。现有的数据清洗方法主要是对原始日志文件进行处理,删除web日志中与挖掘算法无关的数据⋯,这些数据一般包括图片、视频及后缀为c舀,js,js的脚本文件等;webRobot的日志记录;状态码值大于299的日志记录;GET以外的服务请求。用户是通过一个浏览器访问一个或几个服务器的个体,用户识别一般依据三条启发式规则‘2—31:(1)用户的IP地址不同,则用户不同;(2)IP地址相同,日志中的代理(Agent)属性不同,则用户不同;收稿13期:2009—10—12作者简介:姜宏飞(1982一),女,辽宁葫芦岛人,硕士研究生,主要研究方向:信息安全、访闻控制。

4、E一瑚il:jianghongfei034@163.eom;范纯龙(1973一),男,辽宁营口人,副教授,主要研究研究方向:信息安全、人侵检测,E—mail:fanchl@syi船.edu.cn;徐蕾(1959一),女。上海人,教授,主要研究方向:信息安全、访问控制等。(3)1P和agent均相同,但当前请求页面与用户已浏览页面间没有链接关系,则认为该IP存在多个用户。用户识别的实质是对清洗后的日志进行分组,会话识别是在用户日志分组的基础上进一步分析出同一个用户的多次会话过程。本文结合常规浏览器访问请求的特点,利用数据清洗中废弃掉的部分数据,并结合web拓扑结构[41知识,改进

5、构建会话页面集的启发式原则和路径补充算法,最终实现提高会话识别质量的目标。1会话识别的现状分析在较长时间段内,用户可能多次访问某站点,web日志记录了这些访问过程的大量信息,但因为用户访问站点时需要通过各种缓存机制并且访问过程本身的并发特点,导致web日志记录与会话间不是简单的对应关系。会话识别的任务就是利用web日志信息,把属于同一用户的同一次访问请求的页面集及页面问的遍历关系识别出来。用于挖掘的web日志一般包含请求页面的主机IP、返回字节数、请求时间、请求方法、服务响应状态码、请求域和参考域等属性。请求域和参考域都是URL,前者是客户请求的当前页,后者指明当前请求是在客户

6、访问参考域页面过程中发出的,即参考域是当前页的上一个访问页面。目前,会话页面集的识别方法主要是启发式的,常用的方法有4种,(1)Timeout【lJ。给定时间域值O,如果用户在整个站点的停留时间△t大于0,生成一个新会话,然后At重新设置为0,0一般取30rain;或者用户请求的两个相邻页面间第1期姜宏飞等:非页面日志信息在改进会话识别中的应用研究61的时间间隔△t超过阈值O,产生一个新的会话,O一般取10min。(2)参考域"】。利用用户访问历史和参考域来划分,即Web日志记录中请求页面的参考域不在该用户已访问页面集内,产生新会话。(3)最大向前引用模型【5。6j。通常,一个

7、用户会话中不会出现该用户已经访问过的页面。如果用户在浏览一个网页后按下”返回”按钮,表示当前会话结束,一个新的会话开始。(4)Web拓扑结构法【7-10]。将登录页面、退出页面等构成页面集合,这些页面含有特定的功能意义,以此来标记会话的分界点,再根据分界点将用户的访问页面集划分成多个会话。上面介绍的4种会话识别方法各有优缺点,其中不足之处表现在3个方面,(1)时间间隔受客户访问内容和访问习惯等多种因素的影响,难于统一;(2)利用参考域和请求域间的引用关系忽视了back的操作影响,且没有考虑伪

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。