数据分析的特征选择实例分析

数据分析的特征选择实例分析

ID:20148149

大小:440.41 KB

页数:15页

时间:2018-10-09

数据分析的特征选择实例分析_第1页
数据分析的特征选择实例分析_第2页
数据分析的特征选择实例分析_第3页
数据分析的特征选择实例分析_第4页
数据分析的特征选择实例分析_第5页
资源描述:

《数据分析的特征选择实例分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据分析的特征选择实例分析1.数据挖掘与聚类分析概述数据挖掘一般由以下几个步骤:(l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作的最优算法。(2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。(3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据,确认它对于源数据中“事实”的准确代表性,这是很重要的一点。虽然可能无法对每一个细节做到这一点,但是通过查看生成

2、的模型,就可能发现重要的特征。(4)查询数据挖掘模型的数据:一旦建立模型,该数据就可用于决策支持了。(5)维护数据挖掘模型:数据模型建立好后,初始数据的特征,如有效性,可能发生改变。一些信息的改变会对精度产生很大的影响,因为它的变化影响作为基础的原始模型的性质。因而,维护数据挖掘模型是非常重要的环节。  聚类分析是数据挖掘采用的核心技术,成为该研究领域中一个非常活跃的研究课题。聚类分析基于”物以类聚”的朴素思想,根据事物的特征,对其进行聚类或分类。作为数据挖掘的一个重要研究方向,聚类分析越来越得到人们的关注。聚类的输入是一组没有类别标注的数据,事先可以知道这些数据聚成几簇

3、爪也可以不知道聚成几簇。通过分析这些数据,根据一定的聚类准则,合理划分记录集合,从而使相似的记录被划分到同一个簇中,不相似的数据划分到不同的簇中。2.特征选择与聚类分析算法Relief为一系列算法,它包括最早提出的Relief以及后来拓展的Relief和ReliefF,其中ReliefF算法是针对目标属性为连续值的回归问题提出的,下面仅介绍一下针对分类问题的Relief和ReliefF算法。2.1 Relief算法Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Featureweightingalgorithms),根

4、据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为NearHit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和NearHit在某个特征上的距离小于R和NearMiss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和NearHit在某个特征的距离大于R和NearMiss上的距离,说明该特征对区分同类

5、和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因而运行效率非常高。具体算法如下所示:·2.2ReliefF算法由于Relief算法比较简单,运行效率高,并且结果也比较令人满意,因此得到广泛应用,但是其局限性在于只能处理两类别数据,因此1994年Kononeill对其进行了扩展,得到了ReliefF作算法,可以处理多类别问题。该算法用于处理目标属性为连续值的回归问题。ReliefF

6、算法在处理多类问题时,每次从训练样本集中随机取出一个样本R,然后从和R同类的样本集中找出R的k个近邻样本(nearHits),从每个R的不同类的样本集中均找出k个近邻样本(nearMisses),然后更新每个特征的权重,如下式所示:Relief系列算法运行效率高,对数据类型没有限制,属于一种特征权重算法,算法会赋予所有和类别相关性高的特征较高的权重,所以算法的局限性在于不能有效的去除冗余特征。Matlab实现源码:1.ReliefF特征提取算法Matlab主程序1  %主函数2  clear;clc;3  load('matlab.mat')4  D=data(:,2:s

7、ize(data,2));%5  m=80;%抽样次数6  k=8;7  N=20;%运行次数8  fori=1:N9  W(i,:)=ReliefF(D,m,k);10  end11  fori=1:N%将每次计算的权重进行绘图,绘图N次,看整体效果12  plot(1:size(W,2),W(i,:));13  holdon;14  end15  fori=1:size(W,2)%计算N次中,每个属性的平均值16  result(1,i)=sum(W(:,i))/size(W,1);17  end18  xlabel('属

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。