欢迎来到天天文库
浏览记录
ID:25249822
大小:60.50 KB
页数:9页
时间:2018-11-19
《web挖掘技术与电子商务 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Web挖掘技术与电子商务[摘要]Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术,利用Web挖掘可以提高电子商务系统对消费者的服务能力和竞争优势。文章从四个方面对Web挖掘进行了论述。 [关键词]数据挖掘Web挖掘电子商务 随着互联网的高速发展和企业、个人上网的普及,电子商务成为未来商务交易的主要运营方式,电子商务是运用互联网技术进行的经济贸易活动,是一种基于因特网、以交易双方为主体、以银行电子支付和结算为手段、以客户数据为依托的全新商务模式,其内容包括广告、交易、支付、服务等活动。商家与其合作伙伴、客户通过计算机网络进行商务活动,可以拉近企业与客户的
2、距离,缩短生产时间,降低流通成本,提高产品质量,为生产者和消费者提供更多的信息,扩大客户的选择,提高企业的竞争力。 利用网络提供优质的产品及优良的服务是今天电子商务发展的核心与重点。如何在电子商务活动中通过技术手段来与顾客沟通,了解其消费偏好、习惯以及潜在的消费意识,进而设计出满足不同客户群体的个性化网站,以完成对每一个客户的优质个性化服务,这些已成为电子商务活动中迫切需要解决的问题。利用Web数据挖掘技术就可以有效解决以上问题。 一、Web挖掘的概念 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的
3、信息和知识的过程。数据挖掘是从人工智能和机器学习中发展起来的,它是一种新的信息处理技术,其主要特点是对大量的数据进行抽取、转换、分析和其他模型化处理,从中提取人们感兴趣的知识。数据挖掘的对象可以是数据库,也可以是文件系统,还可以是其他任何组织在一起的数据集合。 Web挖掘是从数据挖掘发展而来,Web挖掘是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息,它是一项综合技术,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。 虽然Web挖掘由数据挖掘发展而来,但其与数据挖掘相比有独特之处。传统数据挖掘的对象局限于数据库中的结构化数据;而Web挖掘的对象是大量、
4、异质、分布的Web文档,其是半结构化或无结构的且缺乏机器可理解的语义。 二、Web挖掘的类型 根据控制对象的不同,Web挖掘可以分为三类:Web内容挖掘、Web结构挖掘、Web数据的使用挖掘。 1.Web内容挖掘 Web内容挖掘,就是从Web页面上的文件内容及其描述信息中获取潜在的、有价值的知识和模式的过程。Web内容挖掘包括文本文件的挖掘和多媒体文档的挖掘。 2.Web结构挖掘 Web结构挖掘,是从Inter的整体结构和网页的相互链接以及网页的本身结构中发现知识的过程。 在整个Web空间,有用的知识不仅包含在页面的内容之中,而且也包含在页面的结构中。Web结
5、构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可以用来改进搜索路径等。 3.Web数据的使用挖掘 Web数据的使用挖掘,是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。 尽管作为一个信息资源是繁杂、异质和庞大的,然而从局部来说,在每一个提供信息资源的服务器上都有一个结构化的记录集,即Web访问日志。每当有获取资源的请求到来时,Web服务器都将记录和积累这些关于用户交互作用的数据。分析不同的Web站点的Web访问日志可以帮助人们理解用户的行为和Web的结构,从而提高网站的实际工作效率。 三、W
6、eb数据的使用挖掘过程 Web使用挖掘遵循传统数据挖掘的研究思路,挖掘过程分为4个阶段:源数据收集、数据预处理、模式发现和模式分析。 1.源数据收集 在Web数据的使用挖掘中,数据最直接的来源是Web服务器上的Web日志文件。Web日志文件非常明确地记录了访问者的浏览行为,Web日志文件包括服务器log、代理log和客户端log。 2.数据预处理 收集到的实际数据一般都具有不完全性、冗余性和模糊性,要想更有效地挖掘出知识,就必须对收集到的数据进行预处理,为挖掘提供准确、简洁的数据。数据的预处理包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤。 (1
7、)数据清洗的主要任务就是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的范围。 (2)在数据净化后就必须确定单一的用户,用户识别的目的就是对用户唯一性的识别。用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现。 (3)在用户识别的基础上须进行用户会话识别,其目的是将每个用户的访问信息划分成若干个独立的会话进程,最简单的方法是采用超时估计的办法,即当对页面之间的请求时间间隔超出所给定值时,即可
此文档下载收益归作者所有