欢迎来到天天文库
浏览记录
ID:36612528
大小:224.91 KB
页数:4页
时间:2019-05-13
《Web日志挖掘的用户识别算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据Microeomput盯-ApplicationsV01.23,No.9.2007学习园地巅型电齄直用2007年第23卷第9期文章缡号11007--757X(2007)09--0061--02Web日志挖掘的用户识别算法研究昊荣擒耍;Web曰志挖掘是将数据挖掘技术应用到Web服务器的日志中,发瑰Web用户的行为模式,烈便连一步最善网站结构或为用户提供十性化的服务。文中探甘了Web旨志挖掘中的用户识别算法,提出了--@多重约束每件的用户识刺算法.美羹词。Web日志挖掘I数据顿处理I用户识剐中瞳分类号:TP393文献标识码:A1引育由于互联网的飞速发展和人们对信息资源的需求,We
2、b数据挖掘成为当夸比较活跃的研究钡域。基于Web的效据挖掘就是从Web海量的数据中自动地、智韶地抽取隐藏在这些数据中的知识。从这些动态的、异}目的、半结构化、授有统一管理的海量数据中快速、准确地获取信息,成为web挖掘的一个难点。人们利用各种策略和挖掘技术来获得潜在的有用模式和隐藏的信息。一般而言,Web挖掘可分为兰类tWeb内容挖掘、Web结构挖掘和Web日志挖掘。web日志挖掘就是挖掘相应站点的日志文件和相关数据来获得用户的访问模式,并进一步分析和研究日志记录的规律.发现潜在的用户群体和行为模式,来改进同站的组织结构,提升网站性能,构造自适应网站·或为客户提供十性化的服务。用户识
3、别是从日志文件中的每一条访问记录来识别出相应的用户。由于缓存、代理服务器(包括网吧、局域网等环境)和防火墙的使用,使得用户识别变得更为复杂。2用户识别技术2.1日志敲据日志数据是客户浏览Web服务器时产生的,记录了用户访问站点的信息。有三种类型的日志戈件:服务器日志、错误日志和Cookie.比如记录一个访问者的IP、访问时间、完整的访问路径、参考路径和其它一些信息。日志数据体现了用户在站点的导航行为。Web日志一般符台W3CWorkingDraft推荐的CLF(CommonLogFileFormat)和ECLF(ExtendedLogFileFor-mat)标准,其常用的字段和含义如
4、下所示;●日期(date)I用户请求页面的日期●时间(time);用户请求页面的具体时间●客户IP地址(ca--ip)t客户端主机的IP地址或DNS●客户名(cs--userrmme);客户端的用户名●用户代理(User—Agent)l服务的提供者●服务器IP地址(8一ip),服务器的IP地址●服务器端口(s--porO:服务器的端口号●方法(cs--method)t用户的请求方法●URL资源(cs--Uri--stem):用户的请求页面●URL查询(c3一uri—query);用户欲进行的查询●协议状态(cs--status)t返回HTTP的状态标识●服务器名(s--compute
5、rname):服务器名称●发送字节敷(se--bytes):服务器发送的字节数●接收字节数(as--bytes)。服务器收到的字节数●所花时间(time--taken);完成浏览所花费的时间●主机(host);服务器的操作系统●协议版本(cs--version)t传输用的协议版本●Cookie(Cookie);Cookie标识符参照网页(Referer),用户浏览的上一页数据的收集主要有以下三个层次t服务器端数据收集的主要是web服务器的日志、包监测日志、网站自身的内容和结构;十t理服务器端数据收集的不仅是多个用户的行为,还可以是对多个网站的行为,客户螭数据收集主要是通过使用远程Ag
6、ent(如JavaScripts或JavaApplets)、用户修改过的浏览器记录等来完成。2.2目志挖掘的过程荛喜蔷界:羹侨秦差蘸为舌i‰};器要磺士(04.H讲Z师R0,泉9)州362021·61·万方数据MicrocomputerApplIcationsV01.23,No.9,2007学习园地t型电脑应用2007年第23卷第9期日志挖掘主要分为三个步骤:-数据预处理。根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并.最后转化为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库中,等待进一步处理。·模式识别。运用路径技术,关联规则、序列模式以及分类聚类等
7、技术对处理后的数据进行挖掘,生成模式。·模式分析。进行用户访问模式的分析,提取出有价值的模式。其中,数据预处理环节是整个过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着非常重要的作用。原始日志文件是简单的文本文件,包舍了一些不完整的、冗余的、错误的数据,需要进行处理。数据预处理是在将日志文件转换成数据库文件以后进行的,其目的是把web日志转化为适合进行数据挖掘的可靠的、精确的数据。这个过程主要包括四个阶段:数据清洗(DataCleaning)、用
此文档下载收益归作者所有