欢迎来到天天文库
浏览记录
ID:59121582
大小:51.00 KB
页数:6页
时间:2020-09-15
《WEB日志的作用和缺陷.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、WEB日志的作用和缺陷 AvinashKaushik将点击流数据的获取方式分为4种:logfiles、webbeacons、JavaScripttags和packetsniffers,其中包嗅探器(packetsniffers)比较不常见,最传统的获取方式是通过WEB日志文件(logfiles);而beacons和JavaScript是目前较为流行的方式,GoogleAnalytics目前就是采用beacons+JavaScript来获取数据的,我们可以来简单看一下传统的网站日志和beacons+JavaScript方式各自的优缺
2、点:WEB日志文件 优势:简单方便,不需要修改网页代码,可以自定义日志格式;较多的现成的日志分析工具的支持(AWStats、Webalizer等);获取网络爬虫数据的唯一途径;可以收集底层数据供反复的分析。 缺陷:数据的质量较低,网站日志包含所有日志数据,包括CSS、图片、脚本文件的请求信息,所以过滤和预处理来提升数据质量必不可少;页面缓存导致浏览无日志记录,这个是比较致命的。beacons+JavaScript 优势:只需要在页面代码中操作,不需要配置服务器;数据的获取有较高的可控性,可以只在需要统计的页面植入代码;能够获取
3、点击、响应等数据;不需要担心缓存等的影响,数据的准确度较高;可用第三方cookie实现多网站跟踪比较。 缺陷:当浏览器禁止接收图片或者禁用JS时,都可能导致数据获取的失败;只在应用服务层操作,无法获取后台的数据;对图片、文件等请求信息的获取难度相对较大;过多地JS可能导致页面性能的下降,虽然这方面的影响一般可以忽略。无论通过何种方式,最终数据都是通过日志文件来记录的,只是通过JS可以更容易控制想要获取的数据,并通过在URL带参数的方式记录到日志文件中共解析和统计。所以底层的数据形式无非就是记录在日志文件中的那几项,在WEB日志格式
4、一文中,已经对网站日志的类型和组成做了基本的介绍,这里就再来解析下WEB日志中各项对网站数据分析的作用,以及存在的不确定性和缺陷。WEB日志中各项的作用 根据WEB日志的组成,下面来介绍下各项在网站数据统计和分析中的作用。其中IP一般在为记录cookie的情况下被用于识别唯一用户的标准,标识符和授权用户一般情况下都为空,而日期时间标识日志生成的时间戳,是一个必备信息。请求(request) 请求类型比较少会被用于统计,只有少数的统计表单提交情况是会被用到,而版本号对统计来书基本是无用的。 请求的资源一般跟域名(domain,一
5、般在包含子域名需要分开统计,或者多个站点的日志被收集到同一日志服务器是,会在网站日志里面自定义加入域名信息以区分)一起决定本次请求的具体资源,页面点击、图片获取或者其他。当然在URL后面加入一些自定义的参数可以获得一些特殊的统计数据,GoogleAnalytics就是通过这种方式实现session和cookie的定义和获取的。状态码(status) 状态码比较常被用于一些请求响应状态的监控,301页面重定向或者404错误,统计这些信息可以有效地改进页面的设计,提高用户体验。传输字节数(bytes) 也比较少被用到,可以判断页面
6、是否被完全打开,文件是否已被读取,操作是否被中断。但在动态页面无法判断。来源页面(referrer) referer涉及的统计较为常见,一般是统计访问的来源类型、搜索引擎、搜索关键字等;同时也是点击流中串连用户访问足迹的依据。用户代理(agent) 识别网络爬虫;统计用户的系统、浏览器类型、版本等信息,为网站开发提供建议,分析各类浏览器的使用情况和出错概率等。session和cookie 关于session和cookie,可以参考session和cookie的辨析。session被用于标识一个连续的访问,用户统计visits这
7、个度量;而cookie主要用于用户识别,也是统计UniqueVisitor的依据。 另外还有一种特殊的网站日志,即记录服务器的提示、警告及错误信息,这类日志可以被用于分析用户的错误。日志的不准确性 WEB日志在技术层面的获取方式及各类外部因素的影响使基于网站日志的数据分析会存在许多的不准确性,下面来介绍下WEB日志中那些项目可能造成数据的不准确,以及造成这些缺陷的原因。客户端的控制和限制 由于一些浏览网站的用户信息都是有客户端发送的,所以用户的IP、Agent都是可以人为设置的;另外cookie可以被清理,浏览器出于安全的设置
8、,用户的可以在访问过程中限制cookie、referrer的发送。这些都会导致用户访问数据的丢失或者数据的不准确,而这类问题目前很难得到解决。缓存 浏览器缓存、服务器缓存、后退按钮操作等都会导致页面点击日志的丢失及referrer的
此文档下载收益归作者所有