计算机毕业论文:web日志挖掘中数据预处理技术的研究

计算机毕业论文:web日志挖掘中数据预处理技术的研究

ID:33463218

大小:75.50 KB

页数:6页

时间:2019-02-26

计算机毕业论文:web日志挖掘中数据预处理技术的研究_第1页
计算机毕业论文:web日志挖掘中数据预处理技术的研究_第2页
计算机毕业论文:web日志挖掘中数据预处理技术的研究_第3页
计算机毕业论文:web日志挖掘中数据预处理技术的研究_第4页
计算机毕业论文:web日志挖掘中数据预处理技术的研究_第5页
资源描述:

《计算机毕业论文:web日志挖掘中数据预处理技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Web日志挖掘中数据预处理技术的研究(浙江邮电职业技术学院,浙江绍兴)[摘要]在Web数据挖掘研究领域中,Web日志挖掘是一个极其重要的应用方面,而数据预处理技术在Web日志挖掘中又起到非常重要的作用。本文详细介绍了Web日志文件的记录格式和Web日志挖掘预处理的一般过程,并针对在实际应用中遇到的问题提出了一种解决方法,最后给出其算法的代码。[关键词]数据挖掘;Web日志挖掘;数据预处理DataPreparationinWebLogMiningLiXX(Departmentofcomputer,zhejiangtechnicalcollegeofpos

2、tandtelecom)Abstract:Inthefieldofdatamining,Weblogminingisveryimportantasanaspectofdataminingapplication,anddatapreparationtechnologyplaysaveryimportantroleatWeblogmining.Thepaperintroducesdetailedtheformofweblogdocumentsandthegeneralprocessofdatapreparationinweblogmining,andito

3、ffersonekindofsolutiontotheprobleminapplicationinreality,finallythepaperpresentsalgorithmiccodeaboutWeblogmining.KeyWords:DataMining,WebLogMining,DataPreparation0引言在Web数据挖掘中,最重要的应用之一是Web日志挖掘。Web日志挖掘就是从Web服务器的日志文件中发现用户的访问模式,分析站点的使用情况。这些使用情况包括用户IP地址、访问时间、访问页面的大小、浏览器类型、响应状态[1]等等。通过

4、Web日志的挖掘,可以进一步分析和研究日志文件的规律,来改进网站的结构和性能,构造自适应网站,同时利用统计和关联分析,给网站提供个性化服务[2],发现潜在的用户群体。常用的Web日志文件的格式有CLF和ECLF,其中ECLF结构如表1[3]所示:表1ECLF日志格式[作者简介]李XX(1982-),男,浙江人,浙江邮电职业技术学院讲师,硕士。IPAddressTime/DateMethod/URL/ProtocolStatusSizeReferAgent典型的日志记录形式如下:202.192.94.66-[12:23:5522/8/2008]-"GET

5、/dry/log/help.htmlHTTP/1.1"-100-11021-"http://www.help.edu.cn"-"WindowsNT5.0;InternetExplorer6.0"目前Web日志挖掘主要分为三个步骤:数据预处理;模式识别;模式分析[4]。本文将对数据预处理过程中涉及到的关键问题和技术难点进行详细的分析和论述。1数据预处理过程一般基于Web日志的数据挖掘预处理过程包括以下过程:数据净化、用户识别、会话识别、路径补充[5]。如图1所示:原始日志数据清理预处理结果路径补充会话识别用户识别访问统计站点结构图1Web日志挖掘的预处理

6、过程1.1数据清理数据预处理的第一步是数据清理[6],数据清理是指根据实际需求,对WEB日志文件进行处理,包括删除无关紧要的数据,合并某些记录,对用户请求页面时发生错误的记录进行适当的处理等。只有当服务器日志中的数据能够准确地反映用户访问Web站点的情况时,经过挖掘得到的关联规则才是真正有用的。由于HTTP协议是一个面向非连接的协议,每次客户连接请求完所要的网页后,服务器会自动与客户断开连接,同时被申请的网页文件连同文件上的图片、声音和脚本代码一起被下载到了客户端。当我们挖掘的目的是探知用户访问模式时,图片和声音文件显然对我们用处不大。所以我们可以把后

7、缀为JPEG,MP3,GIF,WMV等的记录删除。但是,当我们挖掘的目的是为了进行网络流量分析时,这些信息又会显得非常的重要,所以在删除这些记录的时候一定要把相关信息记录下来,一般选择将其中的“发送字节数”和“接收字节数”这两个域的内容记录下来。此外,后缀名为cgi、js和JS的脚本代码因对后面的分析处理不造成任何影响,所以应该删除。我们可以定义一个规则库来帮助删除记录,而这个规则库可以根据分析所得的网站类型进行修改。例如,对于主要包含声音的站点,日志中的声音文件可能代表了用户的请求,此时就不能将声音文件删除。我们可以预先将网站分为一般网站、图片网站、

8、音频网站等,分别建立对应的规则库。确定要分析的网站属于哪一类,然后按照该类网站的规则库进行数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。