基于电子商务网站的web内容挖掘

基于电子商务网站的web内容挖掘

ID:9421485

大小:50.00 KB

页数:4页

时间:2018-04-30

基于电子商务网站的web内容挖掘_第1页
基于电子商务网站的web内容挖掘_第2页
基于电子商务网站的web内容挖掘_第3页
基于电子商务网站的web内容挖掘_第4页
资源描述:

《基于电子商务网站的web内容挖掘》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于电子商务网站的WEB内容挖掘[摘要]随着X络技术的迅速发展,电子商务行业正处以一个高速发展的时期,各类商务X站也应运而生。如何从繁多的商务X站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了ining)、ining)、ining)三种典型的类型。  (1)Web内容挖掘主要是对站点的Web页面内容进行挖掘。目前,大多数研究主要集中在如何对X站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性,很少涉及到如何从X站上进行数据的采集以及分析。  (2)Web结构挖掘主要是对Web文档的结构进行挖掘,通过一定的算法来发现给定的Web文档之间的链接情况

2、,从而得到比较重要的页面,以向浏览X站的用户提供权威页面。  (3)Web使用(访问信息)挖掘主要是对用户访问Web时在服务器方留下的访问记录,也就是用户访问Web站点的存取方式进行挖掘。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。  2.Web挖掘的数据源  在Web数据挖掘中存在几种代表性的数据源:  (1)服务器日志数据。个人浏览Web服务器时,在服务器那方就会产生3种类型的日志文件:Serverlogs,Errorlogs和Cookielogs,这些日志

3、文件主要是用来保存用户访问的基本情况。所以就成为开展Web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。  (2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。  (3)Web页面。目前的Web页面大多满足标准。页面中包含文本和多媒体信息,例如图片、图像、语言等,因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。  (4)Web页面超链接关系。Web页面

4、之间的超链接关系是一种重要的资源,X站的设计者总是把他们认为重要的页面添加到自己的页面上来。  (5)其他数据。除了上述几种重要的数据源外,还有一些其他方面的数据,比如用户注册信息等一系列信息。  当然,在实际的Web数据挖掘中这些数据源并不是孤立使用的,而是几种数据源的综合使用和分析,例如我们要对访问某个电子商务X站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。  3.爬虫和Web内容挖掘  由于上述的几种数据源中有一些是在服务器方生成的,比如说日志文件和用户注册信息,并且涉及到商业机密问题,所以在数据源的获得上存在一定的难度。这里,我

5、们可以利用爬虫(Cral代码进行语法分析,提取其中有效信息,例如出售的商品分类、规格、价格、数量、运送方式、运费、出售人、曾经购买过的用户等。  (4)数据的保存。为了进行最终的挖掘工作,我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具,如SQLServer2005等。  (5)进行挖掘。利用数据挖掘技术获取有效的信息,对相关问题模式进行验证。  三、结束语  电子商务X站,无论是B/C模式还是C/C的,在X站页面上都保存了大量用户在交易过程中产生的信息,例如商品的规格、价格、展示、售后服务以及运输方式等等,还包括卖家的个人信息

6、、信用情况,根据平台的不同还有相应的支付方式、法律条款等等。那么,利用爬虫技术,我们可以开发出一个获得数据源的有效工具来进行Web内容挖掘。  当然,在现实研究当中,Web内容挖掘是和Web结构挖掘及Web访问信息挖掘结合在一起使用的,它们相互补充,共同来挖掘出有用的信息。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。