数据仓库与数据挖掘作业

数据仓库与数据挖掘作业

ID:31920634

大小:80.00 KB

页数:12页

时间:2019-01-27

数据仓库与数据挖掘作业_第1页
数据仓库与数据挖掘作业_第2页
数据仓库与数据挖掘作业_第3页
数据仓库与数据挖掘作业_第4页
数据仓库与数据挖掘作业_第5页
资源描述:

《数据仓库与数据挖掘作业》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.《数据仓库与数据挖掘》课程作业题目:利用Web挖掘技术构建电子商务网站作者:学号:专业:导师:摘要:Web...挖掘是数据挖掘应用于互联网的具体表现形式,也是从海量的电子商务交易信息中提取知识或者有用的信息以掌握网络客户消费习惯的重要技术手段。本文主要介绍了Web挖掘技术在电子商务中的流程和应用,并构建了一个基于Web挖掘技术的电子商务网站的架构,协助电子商务企业更好的开展商务活动。关键词:web挖掘,电子商务,网站架构近十年来,数据挖掘技术已经在我国取得了长足的发展。电子商务也进入了高速的发展阶段,为越来越多的人所

2、使用,已经成为现代社会高速高效的新型商业运作模式。由于电子商务的深入发展,大量客户信息和交易信息的产生,如何利用这些数据,使之成为有用的数据,是电子商务企业的竞争点。电子商务网站是电子商务企业开展商务活动的平台,如何搭建有效的电子商务平台显得尤为重要,因此Web挖掘技术在电子商务中的应用为其提供了新的发展思路。1.Web挖掘技术的概念O.Etzioni[1]定义web挖掘是“利用数据挖掘技术从Web文档和服务中自动地发现和抽取信息。”也就是对文档的内容、可利用资源的使用以及资源之间关系进行分析,从Web数据中发现潜在的

3、有用信息和先前不知道的知识的整个过程。Web挖掘是发现知识的一个迭代过程,是理解网络消费者和商家的一个重要的策略。2.Web挖掘技术的分类[2]按挖掘对象的不同,一般将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web日志挖掘。如图所示:...Web挖掘Web内容挖掘Web结构挖掘Web日志挖掘Web文本挖掘多媒体挖掘内部结构挖掘超链接挖掘Server,Cookielogs挖掘2.1.Web内容挖掘Web内容挖掘是指对Web页面内容进行挖掘,从文本,图像,音频,视频,动画等各种形式的网络资源中发现所需的特定化信

4、息,以实现Web资源的自动检索,提高Web数据的利用效率。Web数据分布范围很广,有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及无结构的自由文本数据信息。所以将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。2.2.Web结构挖掘Web结构挖掘是挖掘Web潜在的链接结构模式,找到隐藏在一个个页面之后的链接结构模型,该模型可

5、用于网页重新分类,寻找相似的网站,获得有关不同网页间相似度及关联度的信息。这有助于用户找到指向相关主题的权威站点。Web结构挖掘可分为超链接挖掘、页面结构挖掘等。这一领域最常用的是图论中的网落分析法,典型的算法有HITS算法、PageRank和HITS改进算法,人们采用这些算法主要是计算Web页面之间的关联程度。这不仅可用于提高网上搜索引擎搜索的准确性,还可以用于挖掘网站之间的通信、相互参引关系。...2.2.3Web日志挖掘Web日志挖掘是对Web日志站点的日志进行处理,把网络结构上的非结构化的数据组织成传统的数据挖

6、掘方法进行处理,能够实现动态地向网络用户进行推荐的目的,在电子商务的交叉销售和售后服务有很重要的作用。在对WWW进行web挖掘的过程中,常使用的web挖掘技术有关联规则,旨在通过挖掘发现类似“90%的顾客在一次购买活动中购买物品A的同时会购买物品B”这样的特征,经典的算法是Apriori算法;分类分析和聚类分析,这两者之间有相似处,其结果都是具有一定特征的群组,不过其本质差别很大,分类是在划分之前有明确的划分标志,划分结果是在规划之中的,然而聚类是以“簇内最大相似、簇间最大不同”为宗旨的,它没有任何划分标志,最终可划分

7、为几簇也不可知。序列模式与关联分析类似,它寻找的是事件之间时间上的相关性。能发现数据库中形如“在一段时间内,顾客购买物品A,然后购买物品B,而后购买物品C,则序列A-B-C出现的频率较高”之类的知识。3.常用的挖掘技术3.1.统计分析(StatisticalAnalysis)统计分析方法是抽取有关Web访问者知识的最常见、最普通的技术。通过分析用户会话文件,我们可以进行频率、平均值和中位数等各种不同种类的基本的描述性分析。根据用户浏览路径中的访问页面、访问时间和访问长度等变量,Web流量分析工具能定期产生各种统计分析报

8、告。其中的统计信息包括最频繁访问的网页、每个页面的平均访问时间和网站的平均访问路径长度等。但是这些报告可能引起低层次的错误分析,例如监测未经授权的入口点或发现最常见的无效URL等。3.2.路径分析(PathAnalysis)路径分析就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析。最常

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。