基于web的数据挖掘研究与探讨

基于web的数据挖掘研究与探讨

ID:33508573

大小:309.08 KB

页数:7页

时间:2019-02-26

基于web的数据挖掘研究与探讨_第1页
基于web的数据挖掘研究与探讨_第2页
基于web的数据挖掘研究与探讨_第3页
基于web的数据挖掘研究与探讨_第4页
基于web的数据挖掘研究与探讨_第5页
资源描述:

《基于web的数据挖掘研究与探讨》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Web的数据挖掘研究与探讨吴恒亮(山东工商学院,中国,264005)[摘要]基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。本文从Web数据挖掘的概念入手,介绍了Web数据挖掘的分类以及主要工作流程,最后从数据源的获取、Web中客户身份的识别、数据的预处理等几个方面讨论了Web数据挖掘中几个关键问题及对策。[关键词]数据挖掘;Web数据挖掘;信息管理1引言在Internet技术迅猛发展的今天,面对Web上浩瀚的数据信息,如何帮助人们有效地收集、选择和存储所感兴趣的信息,以及在日益

2、增多的信息中发现新的概念和它们之间的关系,使之能做到信息处理的自动化,已成为现今IT研究的热点问题。由于Web数据自身的特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。2Web数据挖掘的含义Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将

3、数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。对Web数据挖掘一般做如下的定义:Web数据挖掘是指从Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web数据挖掘的过程就是从输入到输出的一个映射:ξC→PWeb数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。3WEB数据挖掘的分类目前比较流行的分类就是根据其挖掘对象将其大致分为三类:Web内容挖掘

4、、Web结构挖掘、Web使用挖掘,如图1所示。(1)Web内容挖掘Web内容挖掘是对Web上大量文档的集合进行总结、分类、聚类与关联分析来获取有用信息。Web页面的内容主要分为三类:无结构的自由文本、半结构的超文本文档和结构化的文档。Web文本/超文本的内容挖掘是Web内容挖掘的重点,但是作为Web内容挖掘一部分的多媒体数据挖掘在近几年来受到许多的研究人员的关注。Web数据挖掘Web内容挖掘Web结构挖掘Web使用挖掘文本挖掘多媒体挖掘文档内结构挖掘超连接挖掘URL挖掘个性化使用分析访问模式分析图1

5、Web数据挖掘分类(2)Web结构挖掘Web结构挖掘是指挖掘Web潜在链接结构模式,即通过分析页面链接和被链接数量以及对象来建立Web自身的链接结构模式。Web数据不同于文本或者数据库,有用的知识不仅在Web页面的内容中存在,而且也在Web页面间的链接结构和Web页面内部结构中包含。所以,Web结构挖掘可以分为外部结构挖掘、内部结构挖掘以及URL挖掘。常见的算法有PageRank、HITS(HypertextInducedTopicSearch),二次方程推断法(QuadraticExtrapola

6、tion)、分块矩阵排序算法(BlockRankAlgorithm)、发现虚拟社区(Cyber-community)的算法,发现相似页面的算法等。(3)Web使用挖掘Web使用挖掘是从用户存取模式中获取有价值的信息,即通过分析Web日志数据及相关数据,来发现访问者访问Web页面的模式,分析日志记录中的规律,从而识别访问者的兴趣、频率、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、代理服务器日志记录、浏览器端

7、日志记录、用户简介、注册信息,用户对话或交易信息,cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。一般可分为一般访问模式分析以及定制使用跟踪模式。一般的访问模式跟踪通过分析Web访问日志来理解访问模式与倾向,可以获得有趣的访问模式,这有助于网站的重构与广告位置的选取。定制使用跟踪可以分析个人的嗜好与倾向,在显示的信息、网站的结构与资源的格式等方面进行动态地定制以为每个用户构建符合其个人特色的Web站点。4Web数据挖掘的工作流程根据Web数据的特点,结合数据挖掘的一般流程,可以将W

8、eb数据挖掘流程分解为如图2所示的5个环节,包括获取数据源、数据选择和预处理、模式发现、模式分析和知识表达。(1)获取数据源。根据客户的要求,从Web资源中提取所需要的相关数据,包括Web文档、电子邮件、电子文档、新闻组、网站日志、Web交易数据库等。(2)数据选择和预处理。从目标数据集中去除明显的错误数据和冗余数据,进一步精简数据,选择数据的有效部分,并将数据转化成进行数据挖掘和分析的有效形式,比如规整的逻辑形式甚至是关系表。(3)模式发现。对前面经过预处理的数据自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。