[数据挖掘] 数据开采与知识发现综述

[数据挖掘] 数据开采与知识发现综述

ID:38190068

大小:100.50 KB

页数:12页

时间:2019-06-07

[数据挖掘] 数据开采与知识发现综述_第1页
[数据挖掘] 数据开采与知识发现综述_第2页
[数据挖掘] 数据开采与知识发现综述_第3页
[数据挖掘] 数据开采与知识发现综述_第4页
[数据挖掘] 数据开采与知识发现综述_第5页
资源描述:

《[数据挖掘] 数据开采与知识发现综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据开采与知识发现综述1.1知识发现与数据开采的兴起知识发现与数据开采是人工智能,机器学习与数据库技术相结合的产物。机器学习(MachineLearning)是用计算机模拟人类学习的一门科学。机器学习开始于60年代末。真正的发展是在70年代末,由于专家系统开发中,知识获取的“瓶颈”现象,促使了用机器学习来完成知识的自动获取。80年在美国召开了第一届国际机器学习研讨会。84年《机器学习》杂志问世。我国很快跟上国际步伐,于87年召开了第一届全国机器学习研讨会。从数据库中发现知识(KnowledgeDis

2、coveryinDatabase-KDD)是八十年代末开始的。KDD词是在89年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的。刚开始每两年召开一次国际KDD学术会议,93年后每一年召开一次国际KDD学术会议。这几次国际KDD学术会议上讨论的问题有:(1)定性知识和定量知识的发现;(2)数据汇总;(3)知识发现方法;(4)数据依赖关系的发现和分析;(5)发现过程中知识的应用;(6)集成的交互式的知识发现系统;(7)知识发现的应用。95年在加拿大召开了第一届知识发现和数据开采(DataM

3、ining—DM,有人翻译为数据挖掘、数据发掘、数据采掘)国际学术会议。由于把数据库中的“数据”形象地比喻成矿床,“数据开采”一词快流传开来。95年以来,国外在数据开采知识发现方面论文已经非常多,已形成了热门研究方向。1.2知识发现和数据开采概念知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据开采(DM)被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。KDD过程定义(Fayyad,Piatetsky-Shapiror,andSmyth1996):从

4、大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。“模式”可以看成是知识的雏形,经过验证、完善后形成知识。KDD过程图为图8.1。图1.1KDD过程图从图中可见,KDD过程是多个步骤相互连接起来,反复进行人机交互的过程。具体说明如下:1.学习某个应用领域:包括应用中的预先知识和目标。2.建立一个目标数据集:选择一个数据集或在多数据集的子集上聚焦。3.数据清理和预处理:去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据的变化等。4.数据转换:找到数据的特征进行编码,减少有效变

5、量的数目。如年龄,10年为一级,一般为10级。5.选定数据开采算法:决定数据开采的目的,用KDD过程中的准则选择某一个特定数据开采算法(如汇总、聚类、分类、回归等)用于搜索数据中的模式,它可以是近似的。6.数据开采:通过数据开采方法产生一个特定的感兴趣的模式或一个特定的数据集。7.解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式为知识。8.评价知识:将这些知识放到实际系统中,查看这些知识的作用,或者证明这些知识。用预先可信的知识检查和解决知识中可能的矛盾。以上处理步骤往往需要经

6、过多次的反复,不断提高学习效果。数据开采(DM)是KDD中的一个最重要的步骤。有时会不加区别的使用“数据开采”和“知识发现”这两个词。1.3数据开采任务数据开采任务有六项:关联分析、时序模式、聚类、分类、偏差检测、预测。1.关联分析关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。例如,买面包的顾客有90%的人还买牛奶,这是一条关联规则。若商店中将面包和牛奶放在一起销售,将会提高他们的销量。在大型数据库中,

7、这种关联规则是很多的,需要进行筛选,一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。“支持度”表示该规则所代表的事例(元组)占全部事例(元组)的百分比。如买面包又买牛奶的顾客占全部顾客的百分比。“可信度”表示该规则所代表事例占满足前提条件事例的百分比。如买面包又买牛奶的顾客占买面包顾客中的90%,可信度为90%。2.时序模式通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉;在所有

8、购买了彩色电视机的人中,有60%的人再购买VCD产品。在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比(阈值)的规则。这些规则会随着形式的变化做适当的调整。时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。例如在零售市场上,找到另一个有相似销售的部门,在股市中找到有相似波动的股票。3.聚类数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。