欢迎来到天天文库
浏览记录
ID:44197579
大小:26.00 KB
页数:3页
时间:2019-10-19
《数据挖掘是一种技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘是一种技术,它将传统的数据分析方法与处理大虽数据的复杂算法相结合,在一个人型数据库中,白动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写岀來,巩固一下知识。一、数据类型。数据对象有其它的名字,如记录,点,向最,模式,事件,案例,样本,观测或实体。1、属性与度量属性是对象的性质或特性,因対象而片,或随时间而变化。测量标度是将数值或符号与对象的屈性相关联的规则。属性有四种类型:标称、序数、区间、比率。其屮标称和序数属性统称分类的
2、或定性的。区间和比率是数值的或定量的。2、数据集的类型数据集有三个重要的特性:维度、稀疏性、分辨率。数据集有以卜•的类型:3己录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。七棊于图形的数据,包括:带冇对象Z间联系的数据、具冇图形对象的数据。★有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。二、数据质量1o测量和数据收集问题测量课差和数据收集错课:噪声和伪像:英中伪像是确定性失真,如一组照片同一地方上的条纹。精度、偏倚和准确率:精度通常用值集合的标准差度量,而偏倚用值集合的均值■被测量的已知值之间
3、的差度量。离群点:是某种意义上具有不同于数据集屮具它人部分数据对象的特征的数据对象,或者相对于该属性的典型值不寻常的属性值,也称异常对象。遗漏值:是对一个对彖中,其中一个或几个属性的信息未收集。有许多处理遗漏值的策略,如删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值。重复数据:数据集中可能包含重复或者儿乎重复的数据対象。2。关于应用的问题数据在应用时除了考虑质量问题之外,同时也要考虑如下几个性质:时效性、相关性。三、数据预处理1、聚集聚集是将两个或多个対象合并成单个対象。2、抽样抽样是一种选择数据了集进行分析的常用方
4、法,主要基于这样的思想:如果样木是有代表性的,则使用样本与使用整个数据集的效果儿乎一样。抽样有如下几个方法:无放冋抽样、有放冋抽样、分层抽样、渐进抽样。3、维归约维归约不同于聚集,聚集是合并对象,维归约是减少屈性的个数,即降低维度。维归约通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。维灾难:是指这样一种现象,随着数据维度的增加,许多数据分析变得非常困难。用于维归约的线性代数技术:主成分分析(PCA)、奇异值分解(SVD)o4、特征子集选择降低维度的另一种方法是仅使用特征的一个子集,用这个特征子集代替原来的属性
5、集合,更能有效的捕获数据集屮的重要信息。有三种标准的特征选择方法:嵌入、过滤、包装。特征加权:特征越人(属性),所赋了的权值越人,而不太重要的特征赋了较小的权值。5、离散化和二元化在数据挖掘中,经常需要将连续属性变换成分类属性(离散化),并口连续和离散属性可能都需耍变换成一个或多个二元属性(二元化)。6、变暈变换变虽:变换是指用于变量的所有值的变换,也就是丿肉性变换。有两种重要的变量变换类型:简单函数、规范化或标准化。四、相似性和相异性度量1、相似性和相显性的高层定义是术语邻近性。而相似度是两个对像相似程度的数值度量。相
6、异度(经常也称距离)是两个对象寿异程度的数值度量。2、数据对象Z间的相异度比较经典的是欧几里徳距离(欧式距离)。3、数据对象之间的相似性二元数据的相似性度量也称相似系数。一般采用如卜方法度量:简单匹配系数:SMC“i匹配个数/属性个数。Jaccard系数:上匹配的属性的个数/不涉及0-0匹配的属性的个数。余弦相似度:比较常见用于比较两个向虽。在Web挖掘中经常用于比较两个网面的相似性。广义Jaccard系数(Tanimoto系数):是对Jaccard系数的扩展,可以用于文档数据。4、邻近度计算问题组合异种属性的相似度:可
7、以分别计算岀每个属性之间的相似度,然后使用一种导致0和1之间相似度的方法组合这些相似度。如果某些属性是非对称属性,则可以这样处理:如果两个对象在非对象属性上的值都是0,贝U在计算机相似度是可以忽略他们。
此文档下载收益归作者所有