数据挖掘学习小结

数据挖掘学习小结

ID:43939114

大小:595.50 KB

页数:23页

时间:2019-10-17

数据挖掘学习小结_第1页
数据挖掘学习小结_第2页
数据挖掘学习小结_第3页
数据挖掘学习小结_第4页
数据挖掘学习小结_第5页
资源描述:

《数据挖掘学习小结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘学习小结报告人:王晓鹏2013年9月30日内容研究背景知识发现什么是数据挖掘数据挖掘的方法数据挖掘所使用的技术数据挖掘利用的思想数据挖掘的主要问题研究背景爆炸式增长的信息在给人们带来方便的同时,也带来了一系列的问题,如信息过量、信息真伪、信息安全、信息形式多样化等。虽然成熟的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法对未来进行预测。快速增长的海量数据,存放在大型和大量数据库中,没有强有力的工具,理解他们已远远超出了人的能力。数据和信息之间的

2、鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖。知识发现(KDD)一些人把数据挖掘视为知识发现的一个基本步骤,而另外大多数人则把数据挖掘视为数据中的知识发现(KDD)的同义词。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。1.定义结果解释和评价数据挖掘阶段数据准备知识发现数据预处理数据变换数据选取确定发现任务的操作对象,即目标对象消减数据维数或降维包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等决定使用什么样的开采算法。确定开采的

3、任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等。数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。2.知识发现过程数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程。1.定义什么是数据挖掘数据源是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;这些知识是相对的,是有特定前提和约束条件的,在特定领域中

4、具有实际应用价值。什么是数据挖掘2.定义中所包含的信息理解数据和数据的来源(understanding);获取相关知识与技术(acquisition);整合与检查数据(integrationandchecking);去除错误或不一致的数据(datacleaning);建立模型和假设(modelandhypothesisdevelopment);实际数据挖掘工作(datamining);测试和验证挖掘结果(testingandverification);解释和应用(interpretationand

5、use)。3.数据挖掘的完整步骤什么是数据挖掘数据挖掘的方法数据挖掘的方法主要有特征化与区分频繁模式、关联和相关性分类与回归聚类分析离群点分析数据挖掘的方法1.特征化与区分:数据特征化是目标类数据的一般特征或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。数据区分是将目标类数据对象的一般特征与一个或多个对比类对象的一般特征进行比较。目标类和对比类可以由用户指定,而对应的数据对象可以通过数据库查询检索。数据特征化例子例1.要汇总一年之内在沃尔玛超市花费50000元以上的顾客特征,结果可能是顾

6、客的概况,如年龄在40~50岁、有工作、有很好的信誉等级。数据区分例子例2.用户在使用某一软件之前,可能希望将上一年销售增加10%的软件产品于同一时期销售至少下降30%的软件产品进行比较。2.频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁子结构。挖掘频繁模式导致发现数据中有趣的关联和相关性。如果一个关联规则不能同时满足最小支持度阈值和最小置信度阈值,则它认为是无趣的而被丢弃。例3.频繁项集一般是指频繁地在事物数据集中一起出现的商品的

7、集合,如小卖部中被许多顾客频繁地一起购买的牛奶和面包。例4.频繁出现的子序列,如顾客倾向于先购买电脑,再购买打印机,然后再购买打印纸这样的模式就是一个序列模式。例5.关联分析,如假设你作为某超市的经理,你想知道哪些商品经常一块被购买,通过分析购物篮你很容易发现这一现象。数据挖掘的方法3.分类与回归:分类是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。分类预测类别(离散的、无序的)标号,而回归建立连续函数模型。例7.知道父代身高,推测子代身高。研究表明

8、,子代身高有回到父辈平均身高的趋势,一般高个子父辈的儿子们的平均高度要低于父辈的平均身高,低个子父辈的儿子们的平均高度要比父辈的高,即子代的平均身高向中心回归。例6.下图是一个数据分类:数据挖掘的方法4.聚类分析:聚类分析数据对象,而不考虑类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。例8.如果现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。