数据挖掘技术、关联规则知识概述

数据挖掘技术、关联规则知识概述

ID:7863114

大小:28.50 KB

页数:3页

时间:2018-03-01

数据挖掘技术、关联规则知识概述_第1页
数据挖掘技术、关联规则知识概述_第2页
数据挖掘技术、关联规则知识概述_第3页
资源描述:

《数据挖掘技术、关联规则知识概述》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘技术与关联规则的相关重要概念1数据挖掘的概念数据挖掘的概念是指从大量数据中挖掘出用户感兴趣的或有价值的数据,即从杂乱无章的数据海洋中,查找出数据之间的规律,并总结规律,最后形成便于人们理解的公式,增强信息的检索能力,同时也为决策者提供技术支持。在人工智能研究领域,数据挖掘有时又被称为数据库中的知识发现,即可以把数据挖掘认为是数据库中知识发现中三个阶段(即是:数据准备、数据挖掘、结果表达和解释)中的1个阶段。数据挖掘具体能够做很多事情,基本上可以归纳为以下六种:a估计(Estimation)。是分类的

2、前序工作,估出的是连续值,而分类主要指的离散的值,比如:银行可以根据不同客户的贷款额度的大小,为每个客户记予相应的分值(0-1),根据预先设定的阈值,可给每个客户划分为不同级别;b分类(Classification)。属于直接数据挖掘的一种,是数据挖掘技术在训练集中的应用,通过在已经分好类的训练集上建立分类模型,分类出没有分类的数据,是预先定义好的;c预测(Prediction)。是在估值和分类的基础上得出一个新的模型,这种模型可以对未来可能发生的事情做出一种预测,这种预测也并不完全是准确的,是需要通过一段

3、时间验证的;d相关性分组或关联规则(Affinitygroupingorassociationrules)。是指一种事件发生后,会引起另外一种事件将要发生e聚类(Clustering)。是指对相似记录的一种分组,通过分组可得出相关预测或暗示;f复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)。是对多媒体数据的挖掘,它相对于普通文本数据挖掘要复杂的很多。2数据挖掘的主要过程如果根据数据挖掘的基本原理,数据挖掘过程就是知识发现的过程,大体可以分为下几个步骤。(1)定义问题:根据工作需要,确定到底需要

4、解决什么问题,明确数据挖掘的目标。(2)数据准备:它包括数据选择、预算理、变换三个过程,即在不同的数据库中提取出所需的目标数据集,并进行简单的预处理,使编码、格式等统一,对一些不完整或无用的数据进行补充或删除。(3)数据挖掘:根据预期的目标和数据分布的特点等选择适当的数据挖掘算法,对数据进行挖掘。(4)结果分析:直接挖掘出来的数据用户一般很难看懂,为了让用户能清晰、直观的了解,需利用一些辅助工具软件对数据进行解释和评价,把最终结果用图形界面的形式直观显示给用户。3数据挖掘的几种方法在数据挖掘技术中的比较常见

5、的几种方法是:(1)神经网络方法:按照人的神经系统结构与功能,构建一个基于学习的模式识别。(2)遗传算法:根据生物遗传、进化等自然规律,而设计的一种算法。(3)决策树方法:根据数据集的分类,建立一棵决策树。(4)统计分析法:利用数学中的统计学等原理对数据进行统计与分析,找出数据之间的联系。(5)最近邻算法:通过某条记录最邻近的若干条数据记录,来推测下一条记录。(6)粗糙集方法:主要用于对不完整的数据进行知识发现。(7)模糊逻辑:它是模糊数学的应用,主要对一些不易量化的数据进行分析与归类。4关联规则1)关联规

6、则的定义:通常所说的关联规则一般是指从海量数据库中找出不同数据项之间的关联度。假设有数据集合I={i1,i2,i3,i4,…},其中i1,i2,i3,i4,…为数据项是集合I的元素;另设所有交易记录T的集合为D,其中T包含于I。TID作为每个交易的唯一编号。若有数据集合M,如果M包含于T,则称交易T包含M。(1)支持度(Support)关联规则中的支持度是指,在所有交易集合D中,其中某个交易集A和另一个交易集B同时出现的概率。(2)置信度(Confidence)置信度是指在所有交易集合D中,某个交易集合B在

7、另一交易集合A已发生的情况下,交易集合B发生的概率。它表示了关联规则的强度。置信度的公式表示如下:要判断一个关联规则在相关实例中是否有价值体现,其中很重要的是,一要看它的置信度是否大于或等于原先指定的最小置信度(min_conf),另外还要看它的支持度是否大于或等于原先指定的最小支持度(min_sup),只有这两个度都大于最小指定阈值,此关联规则才有效。在判断关联规则“好”与“差”时,只看关联规则中的置信度和支持度是不够的,即使置信度和支持度都满足原先指定的相关条件,但如果不是用户感兴趣的,那也不是一个好的

8、关联规则,所以我们还要考虑关联规则的兴趣度,即:项目集之间的相关程度。当I.M.在区间[-1,0)上,则称A与B负关联,即:A出现的概率越高,则B出现的概率越低;当I.M.在区间(0,1]上,则称A与B正关联,即:A出现的概率越高,则B出现的概率越高;当I.M.=0时,则称A与B无关联,即:A出现的概率高低与B出现的概率高低无关。2)关联规则挖掘的过程:关联规则挖掘过程大体主要按两步进行:(1)高频项目集的产生。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。