知识发现与数据挖掘分析

知识发现与数据挖掘分析

ID:33913118

大小:88.30 KB

页数:3页

时间:2019-03-01

知识发现与数据挖掘分析_第1页
知识发现与数据挖掘分析_第2页
知识发现与数据挖掘分析_第3页
资源描述:

《知识发现与数据挖掘分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、2011年1月情报探索第1期(总159期)知识发现与数据挖掘分析邱晓辉(济宁市图书馆山东272037)摘要:介绍了知识发现过程和数据挖掘的常用技术,并对数据挖掘技术应用进行了探讨。关键词:知识发现数据挖掘数字图书馆中图分类号:TP311.13文献标识码:Adoi:10.3969/j.issn.1005-8095.2011.01.0341知识发现的过程和应用上。需要说明的是,有的学者认为,数据开采知识发现(KDD)是从数据中发现有用知识的整和知识发现含义相同,表示成KDD/DM。它是一个反个过程;数据挖掘(DM)是KDD

2、过程中的一个特定复的过程,通常包含多个相互联系的步骤:预处理、步骤,它用专门算法从数据中抽取模式。1996年,国提出假设、选取算法、提取规则、评价和解释结果、将外一些专家学者将KDD过程定义为:从数据中鉴别模式构成知识,最后是应用。现实中,人们往往不严出有效模式的非平凡过程,该模式是新的、可能有用格区分数据挖掘和数据库中的知识发现,把两者混的和最终可理解的。淆使用。一般在科研领域中称为KDD,而在工程领KDD过程是多个步骤相互连接、反复进行人机域则称为数据挖掘。交互的过程。具体包括:3数据挖掘常用技术(1)学习某个应用

3、领域,包括应用中的预先知识目前数据挖掘应用方面有着种类繁多的商品工和目标。具和软件,大致可以归纳为下列主要类型:(2)建立目标数据集。选择一个数据集或在多数(1)传统主观导向系统。这是针对专业领域应用据集的子集上聚焦。的系统。如基于技术分析方法对金融市场进行分析,(3)数据预处理。去除噪声或无关数据,去除空采用的方法有简单的走向分析也有基于高深数学基白数据域,考虑时间顺序和数据变化等。础的分形理论和谱分析。这种技术需要有经验模型(4)数据转换。找到数据的特征表示,用维变换或为前提。转换方法减少有效变量的数目或找到数据的

4、不变式。(2)传统统计分析。这类技术包括相关分析、回(5)选定数据挖掘功能,决定数据挖掘的目的。归分析及因子分析等。一般先由用户提供假设,再由(6)选定数据挖掘算法。用KDD过程中的准则,系统利用数据进行验证。缺点是需经培训后才能使选择某个特定数据挖掘算法(如汇总、分类、回归、聚用,同时在数据探索过程中,用户需要重复进行一系类等)作为搜索数据的模式。列操作。属于这类商品有美国的SAS、SPSS和Star-(7)数据挖掘。搜索或产生一个特定的感兴趣的graphis等。由于近年来更先进的DM方法的出现和模式或一个特定的数据

5、集。使用,使这些厂商在原有系统中综合一些DM部件,(8)解释。解释某个发现的模式,去掉多余的不切以获得更完善的功能。以上2种技术主要基于传统[1]题意的模式,转换某个有用的模式,以使用户明白。的数理统计等数学基础上,一般早已开始用于数据(9)发现知识。把知识结合到运行系统中,用预分析方面。先、可信的知识检查和解决所获知识中可能存在的(3)神经元网络(NN)技术。神经元网络技术是问题。属于软计算领域内一种重要方法,它是多年来科研2知识发现的核心———数据挖掘人员进行人脑神经学习机能模拟的成果,已成功地所谓数据挖掘,就是从

6、数据库中抽取隐含的、以应用于各工业部门。在DM(KDD)的应用方面,利用前未知的、具有潜在应用价值的信息的过程。数据挖神经网络技术特别有效。经过训练后的NN可以想掘是KDD最核心的部分。与传统分析工具不同的是像具有某种专门知识的“专家”,因此可以像人一样数据挖掘使用的是基于发现的方法,运用模式匹配从经验中学习。NN有多种结构,但最常用的是多层和其它算法决定数据之间的重要联系。BP(BackproPagation)模型。它已广泛地应用于各种数据挖掘算法的好坏将直接影响到所发现知识DM(KDD)工具和软件中。其缺点是用它来

7、分析复杂的价值。目前大多数的研究都集中在数据挖掘算法的系统如金融市场,NN就需要复杂的结构为数众多收稿日期:2010-03-30作者简介:邱晓辉(1960—),男,本科,副研究馆员,已发表论文11篇。992011年1月情报探索第1期(总159期)神经元以及连接数,从而使现有的事例数(不同的纪一个企业中,还有一类像文本和网页形式的数据,称录数)无法满足训练的需要。另外由受训后的NN所作非结构型数据。它来自不同的信息源,如文本图像代表的预测模型的非透明性也是其缺点,尽管如此,影视和音响等。随着Internet的扩展和大量在

8、线文本它还是广泛而成功地为各种金融应用分析系统所采的出现,将标志这巨大的非结构型数据海洋中蕴藏用。着极其丰富的有用信息即知识。开发一种工具能协(4)决策树。在知识工程领域,决策树是一种简助用户从非结构数据中抽取关键概念以及快速而有单的知识表示方法,它将事例逐步分类成代表不同效地检索到关心的信息,这将是一个非常引人入胜的类别。由于分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。