资源描述:
《web日志挖掘中的用户聚类与url聚类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Web日志挖掘中的用户聚类与URL聚类2007年第6期福建电脑15Web日志挖掘中的用户聚类与URL聚类崔英敏.陈阳(1.私立华联学院广东广州5106632.广东轻工职业技术学院广东广州510300)【摘要】:Web挖掘是目前国内外数据挖掘研究方向的热点,根据其挖掘出潜在而有用的信息将对网站管理者和商家起到很大的指导作用.它应用delphi7开发程序WeblogdigP,实现了web日志挖掘中的用户聚类和url聚类,为设计和构建智能化电子商务体系打下很好的基础.【关键词】:Delphi7数据库编程;sql查询;数据挖掘;日志挖掘l_引言随
2、着InterYlet的飞速发展.人们越来越多地从网上获取信息,进行电子商务等活动.企业在互联网上开展,传统的市场营销策略都纷纷转向Internet.网上的信息资源越来越丰富,web也因此成为Intemet上存储和发布信息最普遍的载体.人们从web上获取信息的模式,获取信息的类型也就反映了其兴趣偏好所在.因此.用户访问Web的规律.成了Internet环境下各企业与组织共同关注的一大热点.Web挖掘正是通过分析用户访问web的规律.确定用户的浏览的生命周期.针对不同的用户提供动态的页面组织结构.实现部分网页预传导客户端.从而提高网站的效率:
3、分析用户访问Web的规律也可以找出如何优化一个网站的拓扑结构的策略.人们把数据挖掘技术应用到Web上.成为了一项非常热门的技术一web挖掘技术.Web日志挖掘是Web挖掘的一类.它是通过挖掘Web日志记录.来发现用户访问web页面的模式.通过分析和探究web13志记录中的规律,可以识别电子商务的潜在用户.增强对最终用户的因特网信息服务的质量和交付.并改进Web服务器系统的性能【】1.2.Web日志挖掘研究意义与现状分析Web13志挖掘在新兴的电子商务领域有重要意义.它通过挖掘相关的Web13志记录.来发现用户访问Web页面的模式和规律We
4、b使用记录数据除了服务器的13志记录外还包括代理服务器13志,浏览器端13志,注册信息,用户会话信息,交易信息,Cookie中的信息,用户查询,鼠标点击流等一切用户与站点之间可能的交互记录.可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富.根据对数据源的不同处理方法.Web用法挖掘可以分为两类.一类是将Web使用记录的数据转换并传递进传统的关系表里.再使用数据挖掘算法对关系表中的数据进行常规挖掘:另一类是将Ⅳeb使用记录的数据直接预处理再进行挖掘.Web用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标
5、识某个用户.如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘质量.所以有人专门在这方面进行了研究.通常来讲.经典的数据挖掘算法都可以直接用到Web用法挖掘上来.但为了提高挖掘质量.研究人员在扩展算法上进行了努力,包括复合关联规则算法,改进的序列发现算法等.在131中.根据数据来源,数据类型,数据集合中的用户数量,数据集合中的服务器数量等将Ⅳeb用法挖掘分为以下五类:?个性挖掘:针对单个用户的使用记录对该用户进行建模.结合该用户基本信息分析他的使用习惯,个人喜好.目的是在电子商务环境下为该用户提供与众不同的
6、个性化服务?系统改进:Web服务(数据库,网络等)的性能和其他服务质量是衡量用户满意度的关键指标.Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈.以提示站点管理者改进Web缓存策略,网络传输策略,流量负载平衡机制和数据的分布策略.此外.可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性.这在电子商务环境下尤为重要.?站点修改:站点的结构和内容是吸引用户的关键.Web用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依.比如页面连接情况应如何组织,那些页面应能够直接访问等.?智能商务:用户怎样使用Web站点的信息
7、无疑是电子商务销售商关心的重点.用户一次访问的周期可分为被吸引,驻留,购买和离开四个步骤.Ⅳeb用法挖掘可以通过分析用户点击流等Web13志信息挖掘用户行为的动机.以帮助销售商合理安排销售策略?Web特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况.对用户访问情况进行特征描述.Web日志挖掘虽然是一个很重要的研究领域.但是目前来说真正能提供有价值信息Mining系统并不多.要最终实现从沙子里选出金子的过程.它的研究还有很长的一段路走.?网络上的销售是一场没有硝烟的战争.竞争非常激烈.对于商家和网站管理者来
8、说.如何留住旧的访问用户,吸引新用户.则是一个关键.直接决定着网上商战的成败.那么如何做到这一点呢?常用的方法是:开发具有个性化的用户界面.3.算法设计与实现这里提出的解决思路是:利用WEB服