Web日志挖掘系统设计与实现

ID：36489751

大小：192.50 KB

页数：7页

时间：2019-05-11

资源描述：

《Web日志挖掘系统设计与实现》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、SWLMS:一个Web日志挖掘系统杨怡玲1，管旭东1，陆丽娜2，尤晋元1（上海交通大学计算机系，上海200030）1（西安交通大学计算机系，西安710049）2摘要：Internet的发展带动了WWW的发展，继数据挖掘技术成功地应用于传统数据库领域之后，人们对基于Web的数据挖掘技术（简称Web挖掘）也开始进行研究。Web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件，以发现用户的浏览模式，分析站点的使用情况。它可用于协助管理者优化站点结构，提高站点效率。在分析Web日志挖掘的困难及对策的基础上，给出了Web日志挖掘系统SWLMS的体系结构。具体介绍了SWLMS中日志的预处理过程

2、，包括数据净化、用户识别、会话识别、路径补充的主要任务及其实现，并着重介绍了预处理之后的序列模式识别过程和算法，包括最大向前路径的识别和频繁遍历路径的发现，并给出了实验结果。关键词：数据挖掘；Web日志挖掘；序列模式识别；最大向前路径中图分类号：TP311.13SWLMS:AWebLogMiningSystemYANGYi-ling1，GUANXu-dong1，LULi-na2，YOUJin-yuan1Dept.ofComputer，ShanghaiJiaotongUniv.，Shanghai200030，China1Dept.ofComputer，Xi’anJiaotongUniv.，X

3、i’an710049，China2Abstract：InternetbringsthewidespreadofWWW.Afterthesuccessfulapplicationofdatamining(DM)technologytothetraditionaldatabasedomain,webmining,theapplicationofDMtowebdata,begintoarise.Inthispaper,wemainlydiscussweblogmining,theapplicationofDMtologdatageneratedbywebservers,whichcouldass

4、istthewebmastertooptimizesitearchitectureandincreasevisitingefficiency.Basedontheanalysisofdifficultiesandthecorrespondingsolutionsofweblogmining,thearchitectureofSWLMS,oursampleweblogminingsystemisaddressed.Thedata-preprocessingphaseinSWMLS,includingdatacleaning,userrecognition,sessionidentificat

5、ionandpathfillingisdiscussedindetail.Thenthesequentialpatternrecognitionphaseanditsalgorithmsarepresented,includingtherecognitionofmaximumforwardpathsandfrequenttraversalpaths,withsomeexperimentalresultspresented.KeyWords：datamining；weblogmining；sequentialpatternrecognition；maximumforwardpath收稿日期：

6、1999-08-30作者简介：杨怡玲（1973～），女，博士生Internet的发展带动了WWW的发展，继数据挖掘技术成功地应用于传统数据库领域之后，人们对基于Web的数据挖掘技术（简称Web挖掘）也开始进行研究。Web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件，以发现用户的浏览模式，分析站点的使用情况。它可用于协助管理者优化站点结构，提高站点效率。71Web日志挖掘的困难和解决方法Web服务器日志记录了用户访问本站点的信息。典型的Web服务器日志包括以下信息：IP地址、请求时间、方法（如GET）、被请求文件的URL、HTTP版本号、返回码、传输字节数、引用页的URL（指向被

7、请求文件的页面）和代理。但是，由于本地缓存、代理服务器和防火墙的存在，使得Web日志中的数据并不精确，直接在其上进行挖掘非常困难，而且有可能导致结果的错误。在Web日志挖掘中，主要是提供面向用户的信息分析，所以首先要从Web日志中对用户会话进行识别，以次作为信息分析的基础。用户会话是一个用户在规定的时间内请求的所有Web页面。日志的不精确性往往增加了识别用户会话的难度。本文介绍的Web日志挖掘系统SWLMS（ASimpl

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Web日志挖掘系统设计与实现

Web日志挖掘系统设计与实现

相关文章

相关标签