欢迎来到天天文库
浏览记录
ID:40220814
大小:655.80 KB
页数:55页
时间:2019-07-26
《数据预处理方法与改进的建议x》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据预处理方法的研究与一些改进的建议数据预处理的必要性数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤。不完整、含噪声的和不一致的数据是现实世界大型数据库或数据仓库的共同特点。数据的预处理能有效的提高数据质量,节约大量的时间和空间。一些比较成熟的算法对其处理的数据集合一般有一定的要求。数据预处理的常规方法1.数据清洗去掉噪声和无关数据2.数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式4.数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等数据清洗——处理空缺值数据并不总是完整
2、的在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入数据清洗——处理空缺值空缺值要经过推断而补上1.忽略该记录2.去掉属性3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值7.预测最可能的值噪声数据的处理——分箱分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。箱子:按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就
3、称把该属性值放进这个子区间代表的“箱子”里。分箱技术需要确定的主要问题:分箱方法,即如何分箱数据平滑方法,即如何对每个箱子中的数据进行平滑处理噪声数据的处理——分箱分箱的方法:分箱前对记录集按目标属性值的大小进行排序。等深分箱法等宽分箱法用户自定义区间最小熵例:客户收入属性income排序后的值(人民币元):800100012001500150018002000230025002800300035004000450048005000噪声数据的处理——分箱等深分箱法(统一权重)按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱的权重,也称箱子的深度。设定权重(箱子深度)为4
4、,上述例子分箱后的结果如下。箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000噪声数据的处理——分箱等宽分箱法(统一区间)在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。设定区间范围(箱子宽度)为1000元人民币,分箱后箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000噪声数据的处理——分箱最小熵使在各区间分组内的记录具有最小的熵。信息是信号、符号或消息
5、所表示的内容,用以消除对客观事物认识的不确定性信息量的直观定义:信息量的大小取决于信息内容消除人们认识的“不确定程度”,所消除的不确定程度越大,则所包含的信息量就越大。熵——信息的度量(利用概率来度量)A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管理系有100人。他获得的信息是100/1000=0.1,也就是将可能性空间缩小到原来的1/10.又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息的确定性又缩小到原来的100/1000*10/100=10/1000,也就是将可能性的空间缩短到原来的1100.只要可能性范围缩小了,获得的信息量总
6、是正的。如果为0,获得的信息为○。如果为负,反而扩大了其可能性范围。熵——信息的度量信息量大小的单位用比特来衡量。1比特的信息量是指含有两个独立均等概率状态的事件所具有的不确定性能被全部消除所需要的信息。信息量:H(x)=-∑P(Xi)log2P(Xi)i=1,2,3,…,n其中Xi表示第i个状态(共n个状态);P(Xi)代表出现第i个状态时的概率;H(x)为消除不确定性所需的信息量,单位为比特(bit)。例如:币下落可能有正反两种状态,出现这两种状态的概率都是1/2,即:则,H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]=-(-0.5-0.5)=
7、1比特。同理可得,投掷均匀正六面体骰子的H(X)=2.6比特。噪声数据的处理——分箱用户自定义区间用户根据需要自定义区间。用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后箱1:800箱2:100012001500150018002000箱3:2300250028003000箱4:35004000箱5:450048005000噪声数据的处理——聚类簇:一组数据对象集合。同一簇内的所有对象具有相似性,不同簇间对象具有较大差异
此文档下载收益归作者所有