资源描述:
《知识发现和数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第九章知识发现和数据挖掘数据库中知识发现史忠植中科院计算所2021/7/191高级人工智能史忠植知识发现关联规则数据仓库知识发现工具2021/7/192高级人工智能史忠植知识发现知识发现是指从数据集中抽取和精炼新的模式。范围非常广泛:经济、工业、农业、军事、社会数据的形态多样化:数字、符号、图形、图像、声音数据组织各不相同:结构化、半结构化和非结构发现的知识可以表示成各种形式规则、科学规律、方程或概念网。2021/7/193高级人工智能史忠植数据库知识发现目前,关系型数据库技术成熟、应用广泛。因此,数据库知识发现(KnowledgeDi
2、scoveryinDatabasesKDD)的研究非常活跃。该术语于1989年出现,Fayyad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”2021/7/194高级人工智能史忠植不同的术语名称知识发现是一门来自不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。知识发现:人工智能和机器学习界。数据挖掘(datamining):统计界、数据分析、数据库和管理信息系统界知识抽取(informationextraction)、信息发现(informationdiscovery)、智
3、能数据分析(intelligentdataanalysis)、探索式数据分析(exploratorydataanalysis)信息收获(informationharvesting)数据考古(dataarcheology)2021/7/195高级人工智能史忠植2021/7/196高级人工智能史忠植知识发现的任务(1)数据总结:对数据进行总结与概括。传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。分类:根据分类模型对数据集合分类。分类属于有导师学习,一般需要有一个训练
4、样本数据集作为输入。聚类:根据数据的不同特征,将其划分为不同的类。无导师学习2021/7/197高级人工智能史忠植知识发现的任务(2)相关性分析:发现特征之间或数据之间的相互依赖关系关联规则偏差分析:基本思想是寻找观察结果与参照量之间的有意义的差别。通过发现异常,可以引起人们对特殊情况的加倍注意。建模:构造描述一种活动或状态的数学模型2021/7/198高级人工智能史忠植知识发现的方法(1)统计方法:传统方法:回归分析、判别分析、聚类分析、探索性分析模糊集(fuzzyset)Zadeh1965支持向量机(SupportVectorMac
5、hine)Vapnik90年代初粗糙集(RoughSet)Pawlak80年代初2021/7/199高级人工智能史忠植知识发现的方法(2)机器学习:规则归纳:AQ算法决策树:ID3、C4.5范例推理:CBR遗传算法:GA贝叶斯信念网络2021/7/1910高级人工智能史忠植知识发现的方法(3)神经计算:神经网络是指一类新的计算模型,它是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型。常用的模型:Hopfield网多层感知机自组织特征映射反传网络可视化:2021/7/1911高级人工智能史忠植KDD的技术难点动态变化的数据噪声数
6、据不完整冗余信息数据稀疏超大数据量2021/7/1912高级人工智能史忠植关联规则属于知识发现任务中的相关性分析由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。2021/7/1913高级人工智能史忠植关联规则的表示关联规则的形式如“在购买面包顾客中,有70%的人同时也买了黄油”,可以表示成:面包→黄油。用于关联规则发现的主要对象
7、是事务型数据库,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)。2021/7/1914高级人工智能史忠植关联规则的相关概念(1)设R={I1,I2……Im}是一组物品集,W是一组事务集。W中的每个事务T是一组物品,TR。假设有一个物品集A,一个事务T,如果AT,则称事务T支持物品集A。关联规则是如下形式的一种蕴含:A→B,其中A、B是两组物品,AI,BI,且A∩B=。2021/7/1915高级人工智能史忠植关联规则的相关概念(2)支持
8、度物品集A的支持度:称物品集A具有大小为s的支持度,如果D中有s%的事务支持物品集XP(A)1000个顾客购物,其中200个顾客购买了面包,支持度就是20%(200/1000)。关联规则A→B的支持度:关联