欢迎来到天天文库
浏览记录
ID:9079213
大小:259.00 KB
页数:15页
时间:2018-04-16
《知识发现与管理-2知识发现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、知识发现与管理2知识发现知识发现与管理2知识发现2.1概述基于数据库的知识发现(KDD)和数据挖掘还存在着混淆,通常这两个术语替换使用。KDD表示将低层数据转换为高层知识的整个过程。可以将KDD简单定义为:KDD是确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程。而数据挖掘可认为是观察数据中模式或模型的抽取,这是对数据挖掘的一般解释。虽然数据挖掘是知识发现过程的核心,但它通常仅占KDD的一部分(大约是15%到25%)。因此数据挖掘仅仅是整个KDD过程的一个步骤,对于到底有多少步以及
2、哪一步必须包括在KDD过程中没有确切的定义。然而,通用的过程应该接收原始数据输入,选择重要的数据项,缩减、预处理和浓缩数据组,将数据转换为合适的格式,从数据中找到模式,评价解释发现结果。2.1.1知识发现的定义知识发现(KDD)是基于数据库的知识发现的简称(KnowledgeDiscoveryinDatabases),指从数据集中提取可信的、新颖的、有效的并能被人们理解的模式的非平凡过程。知识发现的目的是屏蔽原始数据的繁琐细节,从原始数据中提取有意义的、精炼的、能够对用户产生直接影响的知识产品,从
3、而为用户在知识服务中提供决策支持。狭义的知识发现过程是从大型数据库中发现有价值知识的过程,而广义的知识发现过程则泛指从网页、书籍、人脑、数据库等各种信息媒体中发现有意义的知识的全过程。该处理过程一般分为三个阶段:数据准备、数据挖掘、结果的评估与解释。2.1.2知识发现的基本任务(1)数据分类。分类是数据挖掘研究的重要分支之一,是一种有效的数据分析方法。分类的目标是通过分析训练数据集,构造一个分类模型(即分类器),该模型能够把数据库中的数据记录映射到一个给定的类别,从而可以l立用于数据预测。(2)数
4、据聚类。当要分析的数据缺乏必要的描述信息,或者根本就无法组织成任何分类模式时,利用聚类函数把一组个体按照相似性归成若干类,这样就可以自动找到类。聚类和分类类似,都是将数据进行分组。但与分类不同的是,聚类中的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义的。第15页共15页知识发现与管理2知识发现(3)衰退和预报。这是一种特殊类型的分类,可以看作是根据过去和当前的数据预测未来的数据状态。通过对用衰减统计技术建模的数字值的预测,学习一种(线性或非线性)功能将数据项映射为一个数字预测
5、变量。(4)关联和相关性。是指发现大规模数据集中项集之间有趣的关联或相关关系。关联规则是指通过对数据库中的数据进行分析,从某一数据对象的信息来推断另一数据对象的信息,寻找出重复出现概率很高的知识模式,常用一个带有置信度因子的参数来描述这种不确定的关系。(5)顺序发现。通常指确定数据组中的顺序模式。当数据的特定类型的关系已被发现时,这些模式同关联和相关性相似。但对关系基于时间序列的数据组,顺序发现和关联就不同了。概括总结:顺序发现是将数据映射为有关数据组的简练描述的子集或映射为数据库中一组特定用户数
6、据的高度概括的数据。(6)描述和辨别。是指发现一组特征规则,其中的每一条都是或者显示数据组的特征或者从对比类中区别试验类的概念的命题。(7)时间序列分析。其任务是发现属性值的发展趋向,如从股票价格指数的金融数据、客户数据和医学数据等。它是用来搜寻相似模式以发现和预测特定模式的风险、因果关系和趋势。2.1.3知识发现的知识类型(1)广义型知识(Generalization)。是根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。(2)分类型知识(Classification
7、&Clustering)。反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类别。(3)关联型知识(Association)。是反映一个事件和其他事件之间依赖或关联的知识,又称依赖(Dependency)关系。这类知识可用于数据库中的归一化,查询优化等。(4)预测型知识(Prediction)。通过时间序列型数据,由历史的和当前的数据去预测未来的情况。它实际上是一种以时间为关键属性的关联知识。(5)偏差型知识(Deviation)。通过分
8、析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述。第15页共15页知识发现与管理2知识发现2.1.4知识发现技术到目前为止已经出现了许多知识发现技术,分类方法也有很多种,(1)按被挖掘对象分有基于关系数据库、多媒体数据库;(2)按挖掘的方法分有数据驱动型、查询驱动型和交互型;(3)按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。知识发现技术可分为两类:基于算法的方法和基于可视化的方法。大多数基
此文档下载收益归作者所有