基于简化站点结构的web路径完善技术new

基于简化站点结构的web路径完善技术new

ID:33544962

大小:306.96 KB

页数:4页

时间:2019-02-27

基于简化站点结构的web路径完善技术new_第1页
基于简化站点结构的web路径完善技术new_第2页
基于简化站点结构的web路径完善技术new_第3页
基于简化站点结构的web路径完善技术new_第4页
资源描述:

《基于简化站点结构的web路径完善技术new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com计算机与现代化2006年第2期JISUANJIYUXIANDAIHUA总第126期文章编号:1006-2475(2006)020056.03基于简化站点结构的Web路径完善技术谭小球l,2,徐妙君2,张建科2(1.浙江大学计算机学院,浙江杭州310027;2.浙江海洋学院信息学院。浙江舟山316004)摘要:Web日志预处理在很大程度上影响着Web日志挖掘的质量,而Web日志预处理的一项重要工作就是对用户访问路径中的页面缺失进行补充。本文提出一种基于简化站点结构的路径完善技术

2、,既无损于对用户频繁访问模式的分析,也适合于Web日志的增量挖掘。关键词:Web日志挖掘;站点结构;Web日志预处理;访问路径中图分类号:TP393文献标识码:AWebPamComplementBasedonSimplifiedSiteStructureTANXiao.qiu1,2XUMiao-jun2。ZtL~2qGJianke2(1.ComputerCoUege,ZhejiangUniversity,Hanl0u310027,China;2.InformationCollege,ZhejiangOceanUnivers

3、ity,Zhouslum316004,Cltina)Abstract:WebLoSpretreatmentprocessinfluencestheqt~lityofWebLogminingverymuch.AsignificantworkofWebLogpretreat一啪ntprocessistocomplementthelackofWebpagesinWebaeP_~sspaths.TifspaperputsforwardanewteelmiquebasedOnasimpli—tiedWebsitestructurea

4、ndusedtocomplementaccesspaths.TheteclmiqueisbothlosslesstoanalyseusersfrequentaccesspatlrsandmforincrementalWebusagemh&g.Keywords:WebUsagemining;Websitestructure;Weblogpretmatment;RCC.e~path日志中的频繁序列模式,如Humboldt大学的WUM[3J。O引言1.1Web日志的构成Intemet的飞速发展,带来Web页面的迅猛膨胀。web服

5、务器日志记录了用户访问该站点的信息。网络已经发展成为拥有3亿页面的分布式信息空问,典型的Web日志包括:用户IP、访问时间、访问方式、且这个数字仍以每4至6个月增长一倍的速度增加。传输字节数、被请求资料的UP&以及代理等字段。面对这个庞大的信息源,如何快速而有效地发现感兴如表1所示。趣的主题,正成为一个亟待解决的问题。表1典型的服务器目志日期20o4—05一l91Web日志挖掘概述时间14:19:00用户IP210.74,178.198Web日志挖掘作为Web挖掘的一个新领域,正越服务器61.153216.1o4来越受到人

6、们的关注,在众多领域已得到了应用,如网端口80页推荐、web页预取以及站点的个性化服务[1]等。方法G田Web日志挖掘常见技术有两种:一种是把Web资源URL/club/dushu/shuyou.1lLnd日志数据组织为数据立方体,然后在其上进行O[AP状态404或数据挖掘,如SimonFraser大学的WeblogMiner[;用户代理+~ill,a/4.0+(canNible;+~BE~5.5;+0l十h7+5.0)另一种是对Web日志进行序列模式分析,挖掘Web收稿日期:200504-29作者简介:谭小球(197o-

7、),男,湖南衡阳人,浙江大学计算机学院硕士研究生,浙江海洋学院信息学院讲师,研究方向:数据挖掘,神经网络;徐妙君(1974-),女,浙江舟山人,讲师,硕士研究生,研究方向:数据挖掘,图形图像;张建科(1973·),男.浙江舟山人,讲师,硕士研究生,研究方向:数据挖掘,图形图像。维普资讯http://www.cqvip.com2006年第2期谭小球等:基于简化站点结构的Web路径完善技术571.2web日志挖掘系统模型点就是类型繁多。对于一般的Web日志挖掘系统而Web日志挖掘系统的处理过程通常包括在线部言,除了最基本的由W

8、eb站点服务器提供的web使分和离线部分。离线部分对用户事务模式进行聚类用数据以外,还需要借助予Web站点结构数据。分析,从服务器日志中挖掘出适合在线部分所需要的一个Web站点含有的页面庞大而复杂,且页面用户事务模式;在线部分,则根据Web13志挖掘的目之间存在复杂的链接关系。如何描述一个站点页面的不同

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。