基于数据中心模式多网站数据挖掘技术探究

基于数据中心模式多网站数据挖掘技术探究

ID:5996894

大小:30.00 KB

页数:8页

时间:2017-12-30

基于数据中心模式多网站数据挖掘技术探究_第1页
基于数据中心模式多网站数据挖掘技术探究_第2页
基于数据中心模式多网站数据挖掘技术探究_第3页
基于数据中心模式多网站数据挖掘技术探究_第4页
基于数据中心模式多网站数据挖掘技术探究_第5页
资源描述:

《基于数据中心模式多网站数据挖掘技术探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于数据中心模式多网站数据挖掘技术探究  摘要:随着互联网的快速发展,Web上的数据飞速增长。面对海量的数据,如何从中找出有价值的信息,运用到商业决策的制定中,已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类,论述了在电子商务中web挖掘的过程和方法,揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统,系统面对多电子商务平台,实现了统一的数据收集和预处理过程,对用户的访问日志进行分析,从网站、商品类别、商品等角度进行数据分析,并又对用户的访问数据进行挖掘,从这些数据中发现潜在的规律,把握用户动态

2、,帮助企业制定商业决策,使电子商务更具个性化和针对性。关键词:数据挖掘;Web挖掘;电子商务系统;用户兴趣分析中图分类号:TP311文献标识码:A文章编号:1009-3044(2013)31-6948-038现今,随着网络技术和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。随着商务活动活动的电子化、数字化和网络化,如何从这些大量的数据中找出有利于商业运作、提高竞争力和为访问客户提供更多更优质的服务的信息,成为电子商务成败的关键因素,越来越受到电子商务经营者的高度关注,这也对计算机数据技术提出了新的要求。数据挖掘技术应运而生,它是一种能够

3、从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。1Web数据挖掘技术及其在电子商务中的应用Web数据挖掘[1],即Web挖掘,它是指从Web资源上抽取信息或知识的过程,它将传统的数据挖掘思想和方法应用于Web之上,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与

4、Web结合起来。建立在对大量的网络数据进行分析的基础上,采Web数据挖掘用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行对网站以及网页的改进。8Web挖掘是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前,随着电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,对各种商业领域具有重要的实用价值,因而,电子商

5、务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:(1)寻找潜在客户;(2)留住访问客户;(3)提供营销策略参考;(4)完善商务网站设计。2Web数据挖掘的过程和方法根据Web数据挖掘的方法,Web数据挖掘的一般流程[3]分为:数据收集(采集)、数据预处理、模式发现、模式分析四个步骤。Step1:数据收集(采集),从客户端、服务端或者是代理网站端获取数据。数据收集的对象以文本形式存在的,数据是粗糙、未经处理的,比如Web日志;Step2:数据预处理,通过数据清洗,数据格式化对收集海量数据中的有用数据进行筛选,供下

6、一步数据挖掘和分析;Step3:模式发现,对预处理后的数据进行分析和挖掘,发现数据中存在的模式。Step4:模式分析,针对发现的模式进行分析,提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。3数据收集和预处理模式的改进83.1传统的数据收集和预处理模式传统的数据收集模式,获取的日志格式取决于各网站所使用的服务器日志格式,或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性,即记录的格式不同,内容排版也不同,无形中增加了数据收集的难度。传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个,不同网站的网站

7、路径结构都不一样,这导致大多数数据挖掘系统预处理后的信息只局限于来源url,访问url,访问的文档列表,流量等信息,无法得到定制化的信息,如用户点击了哪个商品类别等。3.2基于数据中心的数据收集和预处理模式数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统,客户端只需要调用统一的数据中心接口,即可传递必需的数据,由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的,这样做就屏蔽了传统数据收集模式中,由于各个网站的日志记录格式不同,需要区别对待区别处理的问题。在数据中心,将所有的网站的路径结构都抽象成了三层的

8、目录结构,即应用系统层(例如淘宝)、模块层(例如数码这个类别)和资

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。