欢迎来到天天文库
浏览记录
ID:56383103
大小:2.37 MB
页数:33页
时间:2020-06-14
《特征选择与稀疏学习.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、徐淼第十一章:特征选择与稀疏学习特征特征描述物体的属性特征的分类相关特征:对当前学习任务有用的属性无关特征:与当前学习任务无关的属性西瓜的特征颜色纹理触感根蒂声音相关特征无关特征好瓜坏瓜当前任务:西瓜是否是好瓜特征选择特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因减轻维度灾难:在少量属性上构建模型降低学习难度:留下关键信息西瓜的特征颜色纹理触感根蒂声音相关特征无关特征好瓜坏瓜当前任务:西瓜是否是好瓜特征选择:选择当前任务相关特征特征选择的一般方法遍历所有可能的子集计算上遭遇组合爆炸,不可行可行方法两个关键环节:子集搜索和子集评价子集搜索前向搜索:最优子集
2、初始为空集,逐渐增加相关特征后向搜索:从完整的特征集合开始,逐渐减少特征双向搜索:每一轮逐渐增加相关特征,同时减少无关特征用贪心策略选择包含重要信息的特征子集特征集合当前最优子集优于上一轮最优子集?YN结束子集评价特征子集A确定了对数据集D的一个划分每个划分区域对应着特征子集A的某种取值样本标记Y对应着对数据集的真实划分通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好信息熵是判断这种差异的一种方式常见的特征选择方法常见的特征选择方法大致分为如下三类:过滤式包裹式嵌入式将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方
3、法常见的特征选择方法常见的特征选择方法大致分为如下三类:过滤式先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型。包裹式嵌入式将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法过滤式选择--Relief算法Relief(RelevantFeatures)方法是一种著名的过滤式特征选择方法。Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重(
4、相关统计量),权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief的关键是如何确定权重(相关统计量)?过滤式选择--Relief算法过滤式选择--Relief算法的多类拓展过滤式选择--医学数据分析实例选用的数据:威斯康星州乳腺癌数据集,数据来源美国威斯康星大学医院的临床病例报告,每条数据具有9个属性。数据处理思路:先采用ReliefF特征提取算法计算各个属性的权重,剔除相关性最小的属性,然后采用K-means聚类算法对剩下的属性进行聚类分析。过滤式选择--医学数据分析实例乳腺癌数据集特征提取采用ReliefF算法来计
5、算各个特征的权重,权重小于某个阈值的特征将被移除,针对乳腺癌的实际情况,将对权重最小的2-3种剔除。将ReliefF算法运行20次,得到了各个特征属性的权重趋势图按照从小到大顺序排列,可知,各个属性的权重关系如下:属性9<属性5<属性7<属性4<属性2<属性3<属性8<属性1<属性6我们选定权重阀值为0.02,则属性9、属性4和属性5剔除。过滤式选择--医学数据分析实例乳腺癌数据特征分析从上面的特征权重可以看出,属性6裸核大小是最主要的影响因素,说明乳腺癌患者的症状最先表现了裸核大小上,将直接导致裸核大小的变化,其次是属性1和属性8等,后几个属性权重大小接近。几个重要的属性进行分
6、析:块厚度属性的特征权重在0.19-25左右变动,也是权重极高的一个,说明该特征属性在乳腺癌患者检测指标中是相当重要的一个判断依据。进一步分析显示,在单独对属性6,和属性1进行聚类分析,其成功率就可以达到91.8%。包裹式选择常见的特征选择方法大致分为如下三类:过滤式包裹式直接把最终将要使用的学习器的性能作为特征子集的评价准则嵌入式将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法包裹式选择包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集包裹式选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好包
7、裹式特征选择过程中需多次训练学习器,计算开销通常比过滤式特征选择大得多LVW(LasVegasWrapper)是一个典型的包裹式特征选择方法,LVW在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差作为特征子集评价准则包裹式选择--LVWLVW基本步骤在循环的每一轮随机产生一个特征子集在随机产生的特征子集上通过交叉验证推断当前特征子集的误差进行多次循环,在多个随机产生的特征子集中选择误差最小的特征子集作为最终解采用随机策略搜索特征子集,而每次特征子集的评价都需
此文档下载收益归作者所有