欢迎来到天天文库
浏览记录
ID:22311220
大小:52.50 KB
页数:5页
时间:2018-10-28
《web数据挖掘及其在电子商务中的应用研究 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web数据挖掘及其在电子商务中的应用研究[摘要]电子商务是现代商业模式,数据挖掘是先进的信息处理技术,因此数据挖掘在电子商务中具有广阔的应用前景。本文主要介绍了ining):可分为ining):可分为超链接挖掘、内容挖掘和URL挖掘。整个ining):可分为一般访问模式挖掘和个性化服务模式挖掘。它是从和XML页面的内容,包括本文、图片、语音、图像等。 (4)Web页面超级链接关系。它主要是指页面之间存在的超级链接关系。 (5)客户登记信息。它是指客户通过Web页输入的,要提交给服务器的相关用户信息。这些信息通常是关于用户的人口特征。客户登记信息需要和访问日志集成,才能提
2、高数据挖掘的准确度,使之能更进一步的了解客户。 (6)异构数据源。由于电子商务交易是在Inter网上进行,数据库的结构各异,但其中涵盖着许多价值很高的信息资料,如果用Agent智能手段捕获这些信息源,对提高电子商务挖掘信息价值是很有益的。 4.电子商务中Web数据挖掘的过程 (1)数据预处理。它包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤。 数据清洗的目的是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的范围。 在数据净化后就必须确定单一的用户,用户识别的目的就是对用户惟一性的识别。用户识别可以借助于cookie技术、用户登记技术和
3、启发性规则来实现。 用户会话识别的目的是将每个用户的访问信息划分成若干个独立的会话进程。最简单的方法是采用超时估计的办法,即当对页面之间的请求时间间隔超出所给定值时,即可以认为用户已经开始了一次新的会话。 因为页面缓存技术和代理服务器的广泛使用,使得Web服务器访问日志中所记录的可能不是用户完整的访问路径。不完整的访问日志不能准确地反映用户的访问模式,所以有必要进行访问路径的补充。进行路径补充可以利用Web站点的拓扑结构,对页面进行分析。 事务识别是建立在用户会话识别的基础上的,其目的是依据数据挖掘任务的需求将事务做分割或合并处理,使其适合于数据挖掘需求的分析。 (
4、2)模式识别。对预处理之后的数据进行处理得到相应的事务数据库。在事务数据库基础上进行数据挖掘,需要进行两个方面的工作:一是将事务数据库整理变换成与一定挖掘技术相适应的数据存储形式;二是利用数据挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等。 (3)模式分析。该阶段的主要任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式,发现有趣模式。最常见的模式分析方法是SQL语言知识查询机制,也可以利用存储Web使用数据的数据库进行数据导入,再利用OLAP方法发
5、现数据中的特定模式结果。 (4)可视化。主要是采用可视化的技术以图形界面的方式表示挖掘的成果。 三、电子商务中的Web数据挖掘技术 1.路径分析(PathAnalysis) 路径分析是一种找寻频繁访问路径的方法,它通过对Web服务器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问路径。例如,某客户从某一站点访问到某一感兴趣的页面后就会经常访问该页面,通过路径分析确定频繁访问路径,可以了解客户对哪些页面感兴趣,从而更好地改进设计,为客户服务。 用路径分析技术进行Web数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结
6、构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。 2.统计分析(StatisticsAnalysis) 统计分析是从Web站点中抽取知识最常用的方法,对会话文件中的各个维度,例如浏览时间、路径长度,都可以进行频度、平均值的统计分析。许多Web浏览分析工具会定时提交统计分析报告,这些报告的内容通常包括最频繁被访问的页面、页面的平均浏览时间和平均路径长度,有些统计报告还提供了简单的错误分析
7、功能,例如探测非法访问的次数、出错最多的URL。尽管这种分析缺少深度,但仍有助于改进系统性能,增强系统安全性,便于站点修改,并能提供决策支持。3.关联规则(AssociationRegulation) 关联分析的目的是为了挖掘出隐藏在数据间的相互关系。在电子商务中,关联规则的发现也就是找到客户对网站上各种文件之间访问的相互联系。联系的问题就是得到如下形式的规则:“”,其中与均为在数据库中相关数据特征属性值的集合。例如,用关联规则技术,我们可以发现:如果客户在一次访问行为中,访问了页面/page1时,一般也会访问页
此文档下载收益归作者所有