数据挖掘概念与技术读书笔记.docx

数据挖掘概念与技术读书笔记.docx

ID:57894835

大小:70.49 KB

页数:8页

时间:2020-04-02

数据挖掘概念与技术读书笔记.docx_第1页
数据挖掘概念与技术读书笔记.docx_第2页
数据挖掘概念与技术读书笔记.docx_第3页
数据挖掘概念与技术读书笔记.docx_第4页
数据挖掘概念与技术读书笔记.docx_第5页
资源描述:

《数据挖掘概念与技术读书笔记.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一章1、可以挖掘的数据类型:数据库数据,数据仓库(是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,通常数据仓库用称作数据立方体的多维数据结构建模,数据立方体有下钻(往下细分)和上卷(继续记性总和归纳)操作),事务数据,时间先关或序列数据(如历史记录,股票交易数据等),数据流、空间数据、工程设计数据,超文本和多媒体数据2、可以挖掘什么类型的模型数据挖掘功能包括特征化与区分、频繁模式、关联和相关性挖掘分类与回归、聚类分析、离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画

2、目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。特征化与区分:数据特征化(如查询某类产品的特征)、数据区分(将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较,如把具有不同特性的产品进行对比区分)。挖掘频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模式(频繁项集、频繁子序列和频繁子结构)用于预测分析的分类与回归:分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。到处模型是基于对训练数据集的分析。该模型用来预测类标号未知的对象类标号。表现形式有:分类规则(IF-THEN)、决策树、数学公式和

3、神经网络。分类预测类别标号,而回归简历连续值函数模型,而不是离散的类标号。相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。聚类分析:聚类分析数据对象,而不考虑类标号。离群分析:数据集中可能包含一些数据对象,他么对数据的一般行为或模型不一致。这些数据时利群点。1、使用什么技术:统计学中的统计模型机器学习:监督学习(分类的同义词学习中监督来自训练数据集中标记的实例)无监督学习:本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。由于训练无边际,所以学习到的模型并不能告诉我们所发现的簇的语意。半监督学习:在学习模型时,它使用标记的和未

4、标记的实例。标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。主动学习:是一种机器学习方法,它让用户在学习过程中扮演主动角色数据库系统和数据仓库2、面向什么类型的应用哪里有数据,哪里就用数据挖掘应用。商务智能:进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。Web搜索引擎:需要数以上千或上万计的计算机云协同挖掘海量数据,把数据挖掘方法升级到计算机计算机云和大型分布数据集上。1、数据挖掘的主要问题:挖掘方法:挖掘各种新的知识类型、挖掘多维空间中的知识、数据挖掘—跨学科的努力、提升网络环境下的发现能力

5、、处理不确定性,噪声或不完全数据、模式评估和模式或约束指导的挖掘。用户界面:交互挖掘:数据挖掘过程应该是高度交互的结合背景知识。特定的数据挖掘和数据挖掘查询语言。数据挖掘结果的表示和可视化。有效性和可伸缩性:数据挖掘算法的有效性和可伸缩性,为了有效地从多个数据库或动态数据流的海量数据提取信息,数据挖掘算法必须是有效的和可伸缩的并行、分布式和增量挖掘算法,大量数据和数据挖掘算法的计算复杂性是促使开发并行和分布式数据密集型挖掘算法的因素。第二章认识数据1、主要学习了解属性的不同类型,以及描述属性数据的中心趋势和散步的统计度量。还有熟悉对属性值分布可视化的技术,以及如何计算对象之

6、间的相似性或相异性1、数据对象与属性类型:标称属性:是一些符号或事物的名称,有些使用数字表示,但这些数字不具有数值属性。二元属性:0,1(是否不是)序数属性(ranking)数值属性是定量的,即它是可度量的量,用整数或实数值表示。区间标度属性:用相等的单位尺度度量,如温度。比例标度属性:是具有固有零点的数值属性。如不同币种间的汇率离散属性与连续属性:离散属性具有有限或无线可数个数,可以用或不用整数表示。如果不是离散的就是连续的。术语“数值属性”和“连续属性”通常可以互换地使用。2、数据的基本统计描述:中心趋势度量:均值,中位数,众数,中列数。数据的散布:极差,四分位数,方差

7、,标注差和四分位数极差。可视化的审视数据σ2=1Ni=1N(xi-x)2=(1Ni=1nxi2)2-x2上式表示的是方差,其中x是观测的均值,观测值的标准差σ是方差σ2的平方根。数据段基本统计描述的图形显示:分位数图,分位数-分位数图,直方图,散点图与数据相关。1、数据可视化:从存放在诸如关系数据库中的多维数据开始,讨论一些表示方法,包括基于像素的技术,几何投影技术,基于图符的技术,以及层次的和基于图形的技术。以及复杂数据对象和关系的可视化。:基于像素的可视化技术:在屏幕上创建m个窗口,每维一个,记录的m个维值映射

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。