基于Web的数据挖掘在电子商务中的应用

基于Web的数据挖掘在电子商务中的应用

ID:38268508

大小:170.63 KB

页数:3页

时间:2019-05-28

基于Web的数据挖掘在电子商务中的应用_第1页
基于Web的数据挖掘在电子商务中的应用_第2页
基于Web的数据挖掘在电子商务中的应用_第3页
资源描述:

《基于Web的数据挖掘在电子商务中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3O卷第3期孝感学院学报、,(]_L.3ONQ32010年5月JOURNALOFXIAOGANUNIVERSITY2010基于Web的数据挖掘在电子商务中的应用周贤善,谢婷婷(1.长江大学计算机科学学院,湖北荆州434023;2.北京电子科技学院计算机科学与技术系,北京100070)摘要:Web数据挖掘应用于电子商务系统,已成为数据挖掘热点研究。Web服务器日志中保存了大量的用户访问电子商务系统的记录,运用数据挖掘技术对数据进行处理和分析,构造频繁访问路径挖掘算法,获取用户的购物特性和习惯,达到向每个用户推荐产品的目的,进一步指导电子商务网站建设。关键词:We

2、bl数据挖掘;电子商务;频繁访问路径中图分类号:TP393.092文献标识码:A文章编号:1671—2544(2O10)O3—0071一O3面对大量的电子商务信息,找出用户感兴趣的1.2Web日志挖掘的过程信息加以组织利用,加强客户关系的管理,提高客户web日志挖掘是对原始的日志文件进行预满意度,从而改变Web站点的设计、改善企业与客户处理转变成适合挖掘的数据形式,再利用模式识的关系成为电子商务必须解决的问题。通过对电子别中的数据挖掘算法进行挖掘,最终汇总挖掘结商务网站服务器日志文件进行分析挖掘,可以找出果应用到实际中去。通过对日志数据信息进行分用户行为模式,利

3、于向用户推荐产品,提出针对性商析加工,可以发现用户访问站点的浏览模式,得到务计划或者对网站进行改进。商家用于向特定消费群体或个体进行定向营销的决策信息,可揭示其中的关联关系、时序关系、页1电子商务中的Web挖掘面类属关系、客户类属关系以及频繁访问路径与1.1Web数据挖掘的资源页面等,从而为优化Web站点拓扑结构,为企业Web数据挖掘的资源_1主要包括Web上各种更有效地确认市场目标、改进决策提供帮助[2]。形式的文档和用户访问信息两大类。在Internet电1.3用户识别、会话识别子商务中,客户的浏览信息被web服务器自动搜集,用户识别],是分析有多少不同的用

4、户访问。并保存在日志文件中。Web服务器文件的记录格一般的方法是采用启发式规则,以用户IP和代理式如表1所示。来唯一确定用户。即用户IP地址和代理同时相表1Web服务器文件的记录格式同的为同一个用户;IP地址相同而代理不同,则域说明可以标记为不同的用户。结合访问信息、引用日请求页面的日期和时间志和站点拓扑,就能列出用户浏览的众多路径,若客户机的IP地址请求的页面与用户已浏览的页面不存在链接关硪户皂系,则认为存在IP地址相同的多个用户。传输的字节数服务器的IP及端口号会话是指用户在一次访问网站期间所进行的URI请求活动,会话识别的任务就是把属于同一用户的同返回ht

5、tp的状态标识用户请求的页面一次访问请求识别出来。不同的用户访问属于不Cookie标识号收稿日期:2010—01—26作者简介:周贤善(1963一),男,湖北黄石人,长江大学计算机科学学院副教授,硕士。谢婷婷(198O一),女,湖北荆州人,北京电子科技学院计算机科学与技术系讲师,硕士。一71一周贤善,谢婷婷同的会话,同一用户相邻两次访问时间跨度较大就是要构造出FP。从MFP中找出长度为len时,可以认为该用户开启过两次不同会话。一般的候选路径{xj,⋯xj一),计算它在用户所有会时间戳Timeout设定为3O分钟。扫描日志文件话中的支持度。支持度最大的K个路径的

6、集合中按照用户分类的日志记录,可完成对所有用户就是FKk。的会话识别,进而完成整个日志文件的会话识别。FP的构造算法如下:会话识别是Web日志挖掘的基础和关键,只有识input:备选MFP集合,最小支持度F;别出高质量的会话,才能有效地实现模式识别和output:长度为len的频繁路径集合FPI(1en模式分析,从而为应用提供有意义的数据支持。>1)。for每个用户会话S{2频繁访问路径的挖掘forS中的每个MFP{x1,x2,⋯,xk){用户频繁访问路径l{]是用户在一个时间段中if(1en≤k){多次浏览的连续网站页面序列。在求得MFP的for(j—l;j<

7、k—len+l;j++){基础上,逐次扫描每个用户会话的所有MFP,迭if{x··xi一1}已经在FPlen中代产生长度为len的候选子路径,通过计算候选{xj,⋯xj}的支持度加1路径的频繁访问支持度从而产生频繁访问路径。elseif{xj,⋯xj十Ie~2}的支持度≥Fiand2.1相关定义和概念{xj十··xj一1}的支持度≥Fi定义1用户会话S是一个二元组,其中Uid为用户标识,P为用户在一个时问段}内访问的页面的集合,它由用户访问的页面Pi和}用户访问一个页面所停留的时间L(访问时间长}度)构成,即:S:

8、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。