欢迎来到天天文库
浏览记录
ID:11574536
大小:31.50 KB
页数:4页
时间:2018-07-12
《Web数据挖掘及其在电子商务中的应用研究.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web数据挖掘及其在电子商务中的应用研究 [摘要]电子商务是现代商业模式,数据挖掘是先进的信息处理技术,因此数据挖掘在电子商务中具有广阔的应用前景。本文主要介绍了Web数据挖掘的概念和分类,论述了电子商务中Web数据挖掘的过程和方法,最后阐述了Web数据挖掘技术在电子商务中的应用。 [关键词]Web数据挖掘电子商务 一、引言 电子商务是利用计算机技术、网络技术和远程通信技术,实现整个商务(买卖)过程中的电子化、数字化和网络化。在全球范围内,基于Internet的电子商务迅猛发展,促使各企业经营者必须及时搜集大量的数据,并且将这些数据转换
2、成有用的信息,为企业创造更多潜在的利润。利用Web数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。 二、Web数据挖掘 1.Web数据挖掘的概念 数据挖掘是指从数据库中的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。Web数据挖掘是数据挖掘技术在Web环境下的应用,是从Web文档和Web活动中发现潜在的、有用的模式或信息。它是一项综合技术,涉及到Internet、人工智能、计算机语言学、信息学、统计学等多个领域。 2.Web数据挖掘的类型
3、电子商务中Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,Web数据挖掘可以分为以下三种类型: (1)Web内容挖掘(WebContentMining):可分为Web页面内容挖掘和搜索结果挖掘。前者指的是对Web页面上的数据进行挖掘。而后者指的是以某一搜索引擎为基础,对已搜索结果的挖掘,以得到更精确有用的信息。Web内容挖掘常用的方法有WebOQL和Ahoy。 (2)Web结构挖掘(WebStructureMining):可分为超链接挖掘、内容挖掘和URL挖掘。整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且
4、包含在页面的结构之中。Web结构挖掘是挖掘Web潜在的链接结构模式,是对Web页面超链接关系、文档内部结构、文档URL中的目录途径结构的挖掘。Page2Rank方法就是利用文档间链接信息来查找相关的Web页。 (3)Web使用挖掘(WebUsageMining):可分为一般访问模式挖掘和个性化服务模式挖掘。它是从Web的访问记录中抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。 3.电子商务中Web数据挖掘的数据对象 (1
5、)服务器日志数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上,一般包括severlogs、errorlogs、cookielogs等。4 (2)代理服务器数据。网站服务器日志只记录用户对某个网站的访问,而代理服务器日志记录用户对所有网站的访问。代理服务器相当于在客户浏览器和Web服务器之间提供了缓存功能的中介服务器。它的缓存功能减少了Web服务器的网络流量,加快了网页的运行速度。同时将大量的用户访问信息通过代理日志的形式保存起来。 (3)Web页面。它主要是指HTLM和XML页面的内容,包
6、括本文、图片、语音、图像等。 (4)Web页面超级链接关系。它主要是指页面之间存在的超级链接关系。 (5)客户登记信息。它是指客户通过Web页输入的,要提交给服务器的相关用户信息。这些信息通常是关于用户的人口特征。客户登记信息需要和访问日志集成,才能提高数据挖掘的准确度,使之能更进一步的了解客户。 (6)异构数据源。由于电子商务交易是在Internet网上进行,数据库的结构各异,但其中涵盖着许多价值很高的信息资料,如果用Agent智能手段捕获这些信息源,对提高电子商务挖掘信息价值是很有益的。 4.电子商务中Web数据挖掘的过程 (1)数据
7、预处理。它包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤。 数据清洗的目的是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的范围。 在数据净化后就必须确定单一的用户,用户识别的目的就是对用户惟一性的识别。用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现。 用户会话识别的目的是将每个用户的访问信息划分成若干个独立的会话进程。最简单的方法是采用超时估计的办法,即当对页面之间的请求时间间隔超出所给定值时,即可以认为用户已经开始了一次新的会话。 因为页面缓存技术和代理服务器的广泛使用,使得Web服务器
8、访问日志中所记录的可能不是用户完整的访问路径。不完整的访问日志不能准确地反映用户的访问模式,所以有必要进行访问路径的补充。
此文档下载收益归作者所有