Web日志挖掘系统设计与实现

Web日志挖掘系统设计与实现

ID:36489751

大小:192.50 KB

页数:7页

时间:2019-05-11

Web日志挖掘系统设计与实现_第1页
Web日志挖掘系统设计与实现_第2页
Web日志挖掘系统设计与实现_第3页
Web日志挖掘系统设计与实现_第4页
Web日志挖掘系统设计与实现_第5页
资源描述:

《Web日志挖掘系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、SWLMS:一个Web日志挖掘系统杨怡玲1,管旭东1,陆丽娜2,尤晋元1(上海交通大学计算机系,上海200030)1(西安交通大学计算机系,西安710049)2摘要:Internet的发展带动了WWW的发展,继数据挖掘技术成功地应用于传统数据库领域之后,人们对基于Web的数据挖掘技术(简称Web挖掘)也开始进行研究。Web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件,以发现用户的浏览模式,分析站点的使用情况。它可用于协助管理者优化站点结构,提高站点效率。在分析Web日志挖掘的困难及对策的基础上,给出了Web日志挖掘系统SWLMS的体系结构。具体介绍了SWLMS中日志的预处理过程

2、,包括数据净化、用户识别、会话识别、路径补充的主要任务及其实现,并着重介绍了预处理之后的序列模式识别过程和算法,包括最大向前路径的识别和频繁遍历路径的发现,并给出了实验结果。关键词:数据挖掘;Web日志挖掘;序列模式识别;最大向前路径中图分类号:TP311.13SWLMS:AWebLogMiningSystemYANGYi-ling1,GUANXu-dong1,LULi-na2,YOUJin-yuan1Dept.ofComputer,ShanghaiJiaotongUniv.,Shanghai200030,China1Dept.ofComputer,Xi’anJiaotongUniv.,X

3、i’an710049,China2Abstract:InternetbringsthewidespreadofWWW.Afterthesuccessfulapplicationofdatamining(DM)technologytothetraditionaldatabasedomain,webmining,theapplicationofDMtowebdata,begintoarise.Inthispaper,wemainlydiscussweblogmining,theapplicationofDMtologdatageneratedbywebservers,whichcouldass

4、istthewebmastertooptimizesitearchitectureandincreasevisitingefficiency.Basedontheanalysisofdifficultiesandthecorrespondingsolutionsofweblogmining,thearchitectureofSWLMS,oursampleweblogminingsystemisaddressed.Thedata-preprocessingphaseinSWMLS,includingdatacleaning,userrecognition,sessionidentificat

5、ionandpathfillingisdiscussedindetail.Thenthesequentialpatternrecognitionphaseanditsalgorithmsarepresented,includingtherecognitionofmaximumforwardpathsandfrequenttraversalpaths,withsomeexperimentalresultspresented.KeyWords:datamining;weblogmining;sequentialpatternrecognition;maximumforwardpath收稿日期:

6、1999-08-30作者简介:杨怡玲(1973~),女,博士生Internet的发展带动了WWW的发展,继数据挖掘技术成功地应用于传统数据库领域之后,人们对基于Web的数据挖掘技术(简称Web挖掘)也开始进行研究。Web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件,以发现用户的浏览模式,分析站点的使用情况。它可用于协助管理者优化站点结构,提高站点效率。71Web日志挖掘的困难和解决方法Web服务器日志记录了用户访问本站点的信息。典型的Web服务器日志包括以下信息:IP地址、请求时间、方法(如GET)、被请求文件的URL、HTTP版本号、返回码、传输字节数、引用页的URL(指向被

7、请求文件的页面)和代理。但是,由于本地缓存、代理服务器和防火墙的存在,使得Web日志中的数据并不精确,直接在其上进行挖掘非常困难,而且有可能导致结果的错误。在Web日志挖掘中,主要是提供面向用户的信息分析,所以首先要从Web日志中对用户会话进行识别,以次作为信息分析的基础。用户会话是一个用户在规定的时间内请求的所有Web页面。日志的不精确性往往增加了识别用户会话的难度。本文介绍的Web日志挖掘系统SWLMS(ASimpl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。