web数据挖掘技术及其在电子商务中的应用

web数据挖掘技术及其在电子商务中的应用

ID:25425896

大小:49.50 KB

页数:4页

时间:2018-11-20

web数据挖掘技术及其在电子商务中的应用_第1页
web数据挖掘技术及其在电子商务中的应用_第2页
web数据挖掘技术及其在电子商务中的应用_第3页
web数据挖掘技术及其在电子商务中的应用_第4页
资源描述:

《web数据挖掘技术及其在电子商务中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Web数据挖掘技术及其在电子商务中的应用[摘要]Inter应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于ining,DM)技术的迅速发展及数据库管理技术的广泛应用,人们积累的数据越来越多。如何从浩如烟海的数据中找到内在的规律,如何更方便地传递、交流、获取有用的信息,挖掘这些激增数据背后隐藏的重要信息已成为当前高科技领域研究的热点。经过长期对数据库的研究与开发,产生了数据挖掘技术,数据挖掘技术不仅能够对过去的数据进行查询和遍历,并且能够找出数据间的潜在联系,从而促进信息的传递。他使数据库技术进入一个更高的阶段。  etaWeb数

2、据仓库等。一般,对Web做如下定义:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web数据挖掘的处理流程如图1所下:  1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形

3、成的交易数据库中的数据。  2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。  3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。  4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。四、),用于考察购书者的行为表现。  网络底层信息监听过滤指监听整个网络的所有信息流量,并根据信息源主机、目标主机、服务协议端口等信息过滤掉不关心的垃

4、圾数据,然后进行进一步的处理,如关键字的搜索等,最终将购书者感兴趣的数据发送到给定的数据接受程序,存储到数据库中进行分析统计。其工作流程如图2所示:  (3)后台数据库里的原有数据。后台数据库存储了购书者、图书和订单这三个方面信息,主要有3个数据表构成:第1个是User(用户信息数据表),他用来存放登录在卓越网的用户信息;第2个是Book(图书数据表),用来记录图书的基本信息;第3个是Orders(订单数据表),用来存放购买者在网上所下的订单情况。三个数据表的结构如图3所下:  2.数据的预处理。按照Web数据挖掘技术,将后台数据库与网络日志预处理后得

5、到的数据相匹配建立数据挖掘库,即购书者特征数据仓库,将收集到的数据进行分门别类。依照此原理便可以将分布在不同功能模块中的信息抽取出来,然后清洗清数据。3.数据挖掘阶段。我们把以上信息转化为多维数据模型中的星型模式来表示如下:我们将用户的一次订书看作1个事务T,采集到的多个订书记录T组成事务数据库D,它由N个二维数组组成,数组的行集为所有BBS登录记录样本的集合,列集为特征集,事务的惟一标识符为SrcIP。Web数据挖掘技术实现的总体流程如下:(1)确立目标样本,即由用户选择目标文本,作为提取用户的特征信息。  (2)提取特征信息,即根据目标样本的词频

6、分布,从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。  (3)网络信息获取,即先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成资源索引库。  (4)信息特征匹配,即提取索引库中的源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息返回给用户。  Web数据挖掘还有待进一步的研究,尤其是近来对Web内容挖掘方面集中在信息集成,如建立基于Web的知识库或基于Web的数据仓库的研究上,但这种访求同样存在很多的问题。但建立一个基于Web数据仓库的数据挖掘系统仍是

7、一种值得研究的方法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。