欢迎来到天天文库
浏览记录
ID:56064597
大小:61.50 KB
页数:3页
时间:2020-03-16
《探讨基于xml的电子商务web数据采掘技术的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、探讨基于XML的电了商务Web数据采掘技术的应用家用计算机的普及、互联网及网络通信的迅猛发展已经将人类社会带入了网络经济时代。电了商务以其具有的成木、效率和创新优势,在商务活动屮書据了一席之地,并不断地为越来越多的企业及个人所接受和采用。在电子商务活动屮,每个客户都会有自己的消费习惯,并对信得过的商品有一定的忠诚度,分析客户的需求信息和购物行为特征就成了商家必做的功课。基于网络技术的电了商务的发展,使得商家Web服务器上积累了大量的客户信息数据,这些数据为从事电了商务的商家提供了深入了解客户需求,改进经营现状和提供更好的服务的
2、可能性。从网络上得到的大量信息数据屮提取有用的信息和知识,为商家创造更多潜在的利润,在这样的商业背景下出现了电子商务Web环境屮的数据采掘技术。目前,数字采掘技术作为电子商务领域的重要应用技术2—,为商业决策提供肴强有力的支持和保证,已经逐渐成为电了商务的重要工具。二、XML与数据采掘XML是TheExtensibleMarkupLanguage(可扩展标识语言)的简写。XML是一套用来标记文档的语法,它定由SGML发展而来,[tlW3C(WorldWideWebConsortium力-维网联盟)制定标准。其目标是统一未来跨平
3、台数据交换的格式,并取代现有的HTML成为下一代Web页的标准。XML是一种跨平台的语言,因规范简单、良好的可扩展性、传输内容与传输方式相隔离、具有白我描述能力等优异特性而在全世界范围内得到了越来越多的认可,成为众多商家与用户争相开发及采用的技术。数据采掘又称数据挖掘,就是从大量的、不完全的未知数据屮提取隐含在其中的对使用者的分析有用的信息和规律。数据采掘的主要任务是对数据进行描述和预测,描述数据的特性,对数据进行合并分组,并进行推断预测。数据采掘应用于商业中,它是一种新的商业信息处理技术,主要特点是对商业数据库屮的大量业务数
4、据进行抽取、转换、分析和具它模型化处理,从屮提取辅助商业决策的关键性数据。三、电了商务Web数据采掘技术客户在互联网上漫游时,其浏览信息会被网站服务器白动收集并保存在访问口志、引用口志、代理LI志屮。通过对这些信息的有针对性的分析,可以揭示其中的关联关系、时序关系、被频繁访问的页瓯和路径等等。1.数据动态采集与预处理在开发Web使用记录采掘技术屮,首先要对日志文件进行预处理数据,预处理的方法包括:数据清理、数据集成和转换、数据归约。数据清理可以去掉数据屮的噪音,纠正不-•致。数据集成将数据由多个源合并成一致的数据存储,如数据仓
5、库或数据方。数据转换(如规范化)可以改进涉及跖离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。数据预处理在数据采掘Z前使川,以便改进数据的质最,提高其后的采掘过程的精度和性能,降低实际采掘所需要的时间。2.Web数据采掘的基本方法Web数据采掘(WebDataMining),是数据采掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内讲行浏览的相关数据屮发现潜在的、有用的模式或信息。对应于不同的Web数据,Web采掘分成三类:Web内容采掘、Web结构采掘和Web使用模式采掘
6、。Web内容采掘是指从Web上的文件内容及其描述信息屮获取潜在的、有价值的知识或模式的过程。Web结构采掘就是对Web文档的结构进行采掘。对于给定的Web文档集合,M该能够通过算法发现他们Z间连接情况的冇川信息,文档Z间的超连接反映文档Z间的包含、引用或者从属关系。Web使用模式采掘(WebUsageMining)是对用户访问Web时在服务器方留下的访问记录进行采掘,通过采掘WebU志记录,分析和探究WebU志记录中的规律,可以识别电了商务的潜在客户,增强对最终用户的网上信息服务的质量和交付,改进Web服务器系统的性能。其主要
7、特点是对用户信息数据进行抽取、转换、分析和其他模型化处理,从屮提取辅助商业决策的关键性数据。数据采掘通过数据采掘器进行,其主要功能是进行实际的采掘操作,从经过预处理的数据屮发现模式和规则,借助OLAP引擎和相关算法实现动态更新。在WebLI志记录上可以进行数据采掘,用于找出关联模式,序列模式,和Web访问趋势等。1.Web数据采掘的主要技术适用于电了商务数据采掘的主要技术有关联分析、序列模式分析、分类分析和聚类分析等。数据采掘器按照数据采掘的技术方法进行设计,每种采掘技术包含一些不同的具体实现算法,构成在功能上相互独立的子模块
8、,存放在采掘算法库中。采掘算法库包括:关联分析:应用已有关联规则算法侧重进行兴趣关联规则分析,找出或判断出客户对网站进行访问的相关关系,揭示数据间的内在联系,可据此调整站点的结构。序列模式分析:采掘出数据的前后时间顺序关系,分析其是否存在一定的趋势,以预测未来的行为(访问,浏
此文档下载收益归作者所有