资源描述:
《数据挖掘概念与技术————》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘滕少华广东工业大学协同计算与知识工程第二章数据及数据预处理滕少华Tel:13380039556E-mail:shteng@gdut.edu.cn内容提要数据及数据类型为什么要预处理数据?描述数据的汇总(为数据预处理提供分析的基础)数据清理数据集成和变换数据归约相似度计算09八月20213协同计算与知识工程数据及数据类型相关概念数据狭义:数字。广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。属性(也称为特征、维或字段),是指一个对象的某方面性质或特性
2、。一个对象通过若干属性来刻画。数据集数据对象的集合09八月20214协同计算与知识工程5属性包含电信客户信息的样本数据集案例客户编号客户类别行业大类通话级别通话总费用…N22011002518大客户采矿业和一般制造业市话16352…C14004839358商业客户批发和零售业市话+国内长途(含国内IP)27891…N22004895555商业客户批发和零售业市话+国际长途(含国际IP)63124…3221026196大客户科学教育和文化卫生市话+国际长途(含国际IP)53057…D14004737
3、444大客户房地产和建筑业市话+国际长途(含国际IP)80827…︰︰︰︰︰…对象09八月2021协同计算与知识工程属性类型描述例子分类的(定性的)标称其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。如三个对象可以用A,B,C区分,也可以用甲,乙.丙区分颜色、性别、产品编号。序数其属性值提供足够的信息以区分对象的序。成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)数值的(定量的)区间其属性值之间的差是有意义的。日历日期、摄氏温度比率其属性值之间的差和比率都是
4、有意义的。长度、时间和速度不同的属性类型09八月20216协同计算与知识工程7数据集的特性维度指数据集中的对象具有的属性个数总和。因为在高维度数据集中经常会遇到维度灾难,因此数据预处理的一个重要技术是维归约稀疏性指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。文本数据集分辨率(粒度)不同分辨率或粒度下数据的性质不同09八月2021协同计算与知识工程8数据集的类型记录数据事务数据或购物篮数据数据矩阵文本数据基于图形的数据万维网化合物结构有序数据时序数据(时态数据)
5、序列数据时间序列数据空间数据流数据09八月2021协同计算与知识工程9记录数据事务数据(TransactionData)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。事务ID商品的ID列表T100Bread,Milk,BeerT200Soda,cup,Diaper……典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据,因为记录中的每一项都是一位顾客“购物篮”中购买的商品。09八月2021协同计算与知识工程10数据
6、矩阵如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。数据集可以用一个m×n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。09八月2021协同计算与知识工程11文本数据文档用词向量表示每个词是向量的一个分量(属性)每个分量的值是对应词在文档中出现的次数09八月2021协同计算与知识工程12图形数据网页链接化合物结构09八月2021协同计算与知识工程有序数据时序数据(时态数据如工资,职称等)序列数据(序列数据库S
7、是元组的集合,其中SID是序列ID,s是一个序列)时间序列数据(由不同时间重复测量得到的值。)......事物时间顾客ID购买商品t1110,20t2240,60,90t3140t4310,20顾客ID购买商品1<{10,20},{40}>2<{40,60,60}>3<{10,20}>09八月202113协同计算与知识工程内容提要数据及数据类型为什么要预处理数据?描述数据的汇总(为数据预处理提供分析的基础)数据清理数据集成和变换数据归约相似度计算09八月202114协同计算与知识工程
8、为什么进行数据预处理?现实中的数据都是杂乱无章的不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或孤立点值不一致的:在代码或名称上存在差异例1:过去的等级:“1,2,3”,现在的等级:“A,B,C”例2::Age=“48”Birthday=“03/07/196309八月202115协同计算与知识工程不完整数据的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素人为/硬件/软件问题噪声数据(不正确的值)的成因数据收集工具的问题数据输入时的人为