资源描述:
《web数据挖掘技术及其在电子商务中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Web数据挖掘技术及其在电子商务中的应用工商管理论文_管理学论文[摘要]Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。本文以卓越亚马逊网为例,通过利用Web数据挖掘的技术帮助卓越网做出更正确的决定,使企业处于更有利的竞争位置。[关键词]数据挖掘Web挖掘电子商务卓越亚马逊 一、引言 在Internet浪潮的冲击下,人们面临着数据爆炸的挑战;随着数据挖掘(DataMining,DM)技术的迅速发展及数据库管理技术的广泛应用,人们积累的数据越来越多。如何从浩如烟海的数据中找到内在
2、的规律,如何更方便地传递、交流、获取有用的信息,挖掘这些激增数据背后隐藏的重要信息已成为当前高科技领域研究的热点。经过长期对数据库的研究与开发,产生了数据挖掘技术,数据挖掘技术不仅能够对过去的数据进行查询和遍历,并且能够找出数据间的潜在联系,从而促进信息的传递。他使数据库技术进入一个更高的阶段。 Web是一个巨大、广泛分布、高度异构、半结构化、超文本/超媒体、相互联系并且不断进化的信息仓库;也是一个巨大的文档累积的集合,包括超链接信息、访问及使用信息。传统的数据挖掘大多是针对关系数据库或数据仓库的,处理的数据具有完整的结构,但是Web包
3、含各种类型的数据,现有的数据库管理系统无法操纵和管理大量的非结构化数据,其用户群体也表现出多样性的特点。Web数据挖掘起源于数据挖掘,目的在于可以处理非结构化的数据,Web数据的非结构化这一显著特征使Web数据挖掘更加复杂。 二、电子商务 电子商务(e-business,e-comerce)是一种利用现在先进的电子技术从事各种商业活动的方式;是一套完整的网络商务经营及管理信息系统;是一种利用现有的计算机硬件设备、软件和网络基础设施,通过一定的协议连接起来的电子网络环境进行各种各样商务活动的方式;是一种利用国际互联网进行商务活动的方式,
4、例如:网上营销、网上客户服务、以及网上做广告、网上调查等。 电子商务可以分为企业(Business)对终端客户(Customer)的电子商务(即BC)和企业对企业的电子商务(BB)两种主要模式。 卓越亚马逊是一家通过互联网售卖图书的网上书店。通过卓越的Web网站,用户在购书时可以享受到很大的便利,比如要在万种书中查找一本书,用户可以通过检索功能,只需几分钟就会找到我们想要的书。 三、Web挖掘技术与流程 数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。从商业的角度定义,数据挖掘是一种新的商业信
5、息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Weblog挖掘,智能查询,建立MetaWeb数据仓库等。一般,对Web做如下定义:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模
6、式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web数据挖掘的处理流程如图所下: .查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。 .信息选择和预处理:任务是从取得的Web资源中剔除无用信息和
7、将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 .模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 .模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。四、Web数据挖掘技术在电子商务中的应用 .源数据的收集。在Web挖掘中有一个很重要的步骤就是要为挖掘算法找到合适的数据。在Web使用模式数据挖掘中,数据的来源主要有以下三个方面: ()服务器端数据的收集(ServerLeve
8、lCollection)。可以从Web服务器、代理服务器的Weblog文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息。启动Web服务器的日志记录功能后,每当浏