欢迎来到天天文库
浏览记录
ID:36611853
大小:471.72 KB
页数:5页
时间:2019-05-12
《Clementine在用户频繁访问路径挖掘中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据中华医学图书情报杂志2010年7月第19卷第7期ChinJMedLibrInfSCi,V01.19No.7July.2010·73··现代信息技术Clementine在用户频繁访问路径挖掘中的应用郑慧霞,徐硕。王丽娜[摘要】利用Clementine工具实现用户频繁访问路径的挖掘,包括数据预处理、数据格式转化、挖掘分析等3个过程。基于工具的挖掘,可大大缩减数据预处理和序列挖掘的时间。研究证明,实现用户频繁访问路径的Clementine挖掘是一种行之有效的方法,研究中构建的Clementine数据流可继续完善成为网络日志挖掘的应用模版,适合于更加复杂的行
2、为挖掘。[关键词】web日志挖掘;web日志预处理;频繁访问路径;Clemenfine挖掘【中图分类号]TP311.13[文献标志EI]A[文章编号]1671—3982(2010)07—0073—04ApplicationofClementineindataminingoffrequenttravelpathsZHENGHlli—xia,XUShuo,WANGLi-na(InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100005,China)[Abstract]Cle
3、mentinecallbeusedindataminingoffrequenttravelpaths,includingdatapreproeessing,dataformattransformation,andmininganalysis.Clementine-baseddataminingCangreatlyshortenthepreprocessingandsequenceminingtimeofdata.IthasbeenprovedthatClementineisaneffectivetoolfordataminingoffrequenttrave
4、lpaths.Clementinedatastreamcanbefurtherperfectedas8napplicationtemplateofweb-logminingandcanthusbeusedinminingmorecomplicateddata.[Keywords]Web-logmining;Web-logpreprocessing;frequenttravelpath;ClementineminingWeb日志挖掘也被称为Web使用记录挖掘,是分析网站用户行为所进行的数据挖掘的一部分u五]。运用数据挖掘技术从web日志中发现读者偏爱的访问模式
5、,分析站点的使用情况,为图书馆网站优化设计、用户行为分析与预测、读者个性化服务提供前摄的、基于知识的、并可视化【30的决策依据。在目前应用的多种数据挖掘方法中,基于序列模式思想的用户访问路径的挖掘Ho在Web日志挖掘中最为常用。SPSS公司整合开发的Chmentine挖掘工具平台,作为第三代数据挖掘软件,提供了基于图形化的界面和大量的人工智能、统计分析模型哺】,为[基金项目]中国医学科学院医学信息研究所基本科研业务费支持项目:基于Web挖掘的读者行为分析(编号:Ros30)。[作者单位]中国医学科学院医学信息研究所,北京100005【作者简介]郑慧霞(197
6、9一),女,北京市人,本科,助理馆员,发表论文2篇。Web日志预处理和模式挖掘提供了方便。本文主要探讨如何利用Clementine工具完成用户频繁访问路径挖掘的基本过程,研究人员不需要掌握序列算法,只需要专注于数据挖掘要解决的问题。l构建Web日志预处理数据流数量庞大而且存在大量噪声的原始Web日志数据,从格式上和内容上并不适合直接进行挖掘,需要经过清洗、过滤、重组、格式转化等步骤,转化成适合挖掘的数据格式,以上统称为Web日志预处理。在整个系统处理中,Web日志预处理是最苛刻、最复杂、最耗费时间的工作。2/3的学者认为花费在数据清洗和数据预备上的时间会超过
7、60%【2J。本文采集了图书馆网站服务器端的日志数据作为研究对象,日志时间为2009年2月28日至5月31日(日志时间和北京时间相差8个小时),跨度93天,数据量1.64GB,日志为IIS6.0格式,共11个字段。其中和挖掘相关的字段是时间(Date。Time)、地点和人物[c-ip、cs(User—Agent),cs—user-万方数据·74·中华医学图书情报杂志2010年7月第19卷第7期ChinJMedLibrInfSei,V01.19No.7July.2010name]、事件[cs(Refemr),cs-uri-stem,cs-uri-query,∞
8、一status]。每条访问记录中表示目标页的es一面
此文档下载收益归作者所有