web使用挖掘技术的分析与研究

web使用挖掘技术的分析与研究

ID:34449625

大小:477.67 KB

页数:5页

时间:2019-03-06

web使用挖掘技术的分析与研究_第1页
web使用挖掘技术的分析与研究_第2页
web使用挖掘技术的分析与研究_第3页
web使用挖掘技术的分析与研究_第4页
web使用挖掘技术的分析与研究_第5页
资源描述:

《web使用挖掘技术的分析与研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第25卷第1期计算机应用研究Vol.25,No.12008年1月ApplicationResearchofComputersJan.20083Web使用挖掘技术的分析与研究1,21朱志国,邓贵仕(1.大连理工大学管理学院,辽宁大连116024;2.东北财经大学,辽宁大连116023)摘要:首先给出Web使用挖掘的定义和完整模型框架;然后对Web使用挖掘中主要步骤的最新研究进展状况作了详细的阐述和分析,其中包括数据采集、数据预处理、模式发现和模式分析;最后对未来的研究重点进行了展望。关键词:Web挖掘;Web使用挖掘;数据预处理;模式发现;模式分析中图分类号:TP393文献标志码:A文章

2、编号:100123695(2008)0120029204AnalysisandresearchonWebusagemining1,21ZHUZhi2guo,DENGGui2shi(1.ManagementSchool,DalianUniversityofTechnology&Science,DalianLiaoning116024,China;2.DongbeiUniversityofFinance&Eco2nomics,DalianLiaoning116023,China)Abstract:Firstly,thispaperpresentedthedefinitionandfulla

3、rchitectureofWUM.Secondly,elaboratedandanalyzedmanynewadvancesinmajorstepsofWUM,includingdatacollection,datapreprocessing,patternsdiscovering,patternsanalysis.Finally,gavesomefutureimportantworksonresearchfieldofWUM.Keywords:Webmining;Webusagemining(WUM);datapreprocessing;patternsdiscovering;pat

4、ternsanalysisWeb上的数据正以每天新增一百万个页面的速度增长,点信息采集。[1]页面数目已超过10亿。如何从这些位于分布式环境中的海量数据挖掘和抽取潜在的、用户感兴趣的有用模式和隐藏的知识成为一个重要而非常有意义的课题。Web挖掘技术正是以此为目标应运而生的。Web挖掘技术将传统的数据挖掘技术[2~4]与Web技术结合起来,并综合运用了统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术。定义1Web挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看做输入,p看做输出,那么Web挖掘的过程就是从输入到输出的一个映射:ξ:C→p。[5]一般地,

5、Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘。目前国际上对Web使用挖掘的研究比[6~8]较多。WUM是指能够从服务器、浏览器端的日志记录和用户的个人信息中自动发现和预测隐藏在数据中的模式信息———用户群体的共同行为、兴趣以及个人用户的检索偏好、习惯等。在WUM中,使用数据的采集主要可以分为以下几种形式:使用挖掘的基本框架a)服务器端的数据采集。主要包括从Web服务器日志中收集和从网络监视器中收集。Web服务器日志文件是执行图1给出了一个WUM比较完善的系统框架模型图。从WUM的重要数据来源。该日志文件记录了用户访问站点的图中可以看出它包含了数据采集、数据预处理、

6、模式发现和模数据。每当站点上的网页被访问一次,Web服务器就在日志式分析四个主要的阶段。文件中增加一条相应的记录。如图2所示的就是一条典型的1数据采集[11]ECLF(extendedcommonlogfile,扩展日志格式)的记录和提在WUM中,由于HTTP的无状态连接特性而很难得到取出的相关信息。当然,Web服务器日志文件还可以以其他[9]准确的用户浏览信息。JaideepSrivastava等人和CyrusSha2的格式存储,如CLF(commonlogfile,通用日志格式)或其他[10]habi等人提出从Web的结构出发,多层次地进行Web站日志格式有NCSA、CERN、AP

7、ACHE[12]。这些记录数据反映了收稿日期:2006210203;修回日期:2006212214基金项目:国家自然科学基金资助项目(70272050)作者简介:朱志国(19772),男,辽宁大连人,讲师,博士研究生,主要研究方向为信息系统工程、Web数据挖掘(zhuzg0628@sohu.com);邓贵仕(19452),男,教授,博导,主要研究方向为信息系统工程、决策支持系统.·30·计算机应用研究第25卷多个用户(可能同时)对Web站点(单

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。