维规约特征子集选择

维规约特征子集选择

ID:24696008

大小:79.00 KB

页数:4页

时间:2018-11-15

维规约特征子集选择_第1页
维规约特征子集选择_第2页
维规约特征子集选择_第3页
维规约特征子集选择_第4页
资源描述:

《维规约特征子集选择》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、维规约—特征子集选择2.3.4 特征子集选择降低维度的另一种方法是仅使用特征的一个子集。尽管看起来这种方法可能丢失信息,但是在存在冗余或不相关的特征的时候,情况并非如此。冗余特征重复了包含在一个或多个其他属性中的许多或所有信息。例如,一种产品的购买价格和所支付的销售税额包含许多相同的信息。不相关特征包含对于手头的数据挖掘任务几乎完全没用的信息,例如学生的ID号码对于预测学生的总平均成绩是不相关的。冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。尽管使用常识或领域知识可以立即消除一些不相关的和冗余的属性,但是选择最佳的特征子集通常需要系统的方法。特征选择的理想方法是:

2、将所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取产生最好结果的子集。这种方法的优点是反映了最终使用的数据挖掘算法的目的和偏爱。然而,由于涉及n个属性的子集多达2n个,这种方法在大部分情况下行不通,因此需要其他策略。有三种标准的特征选择方法:嵌入、过滤和包装。嵌入方法(embeddedapproach)特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式运行。过滤方法(filterapproach)使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择,例如我们

3、可以选择属性的集合,它的属性对之间的相关度尽可能低。包装方法(wrapperapproach)这些方法将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常并不枚举所有可能的子集来找出最佳属性子集。由于嵌入方法与具体的算法有关,这里我们只进一步讨论过滤和包装方法。1.特征子集选择体系结构可以将过滤和包装方法放到一个共同的体系结构中。特征选择过程可以看作由四部分组成:子集评估度量、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。过滤方法和包装方法的唯一不同是它们使用了不同的特征子集评估方法。对于包装方法,子集评估使用目标数据挖掘算法;对于过滤方法,子集评估技术不同于

4、目标数据挖掘算法。下面的讨论提供了该方法的一些细节,汇总在图2-11中。 图2-11 特征子集选择过程流程图从概念上讲,特征子集选择是搜索所有可能的特征子集的过程。可以使用许多不同类型的搜索策略,但是搜索策略的计算花费应当较低,并且应当找到最优或近似最优的特征子集。通常不可能同时满足这两个要求,因此需要折中权衡。搜索的一个不可缺少的组成部分是评估步骤,根据已经考虑的子集评价当前的特征子集。这需要一种评估度量,针对诸如分类或聚类等数据挖掘任务,确定属性特征子集的质量。对于过滤方法,这种度量试图预测实际的数据挖掘算法在给定的属性集上执行的效果如何;对于包装方法,评估包括实际运行目标数据

5、挖掘应用,子集评估函数就是通常用于度量数据挖掘结果的评判标准。因为子集的数量可能很大,考察所有的子集可能不现实,因此需要某种停止搜索判断。其策略通常基于如下一个或多个条件:迭代次数,子集评估的度量值是否最优或超过给定的阈值,一个特定大小的子集是否已经得到,大小和评估标准是否同时达到,使用搜索策略得到的选择是否可以实现改进。最后,一旦选定特征子集,就要验证目标数据挖掘算法在选定子集上的结果。一种直截了当的评估方法是用全部特征的集合运行算法,并将全部结果与使用该特征子集得到的结果进行比较。如果顺利的话,特征子集产生的结果将比使用所有特征产生的结果更好,或者至少几乎一样好。另一个验证方法

6、是使用一些不同的特征选择算法得到特征子集,然后比较数据挖掘算法在每个子集上的运行结果。2.特征加权特征加权是另一种保留或删除特征的办法。特征越重要,所赋予的权值越大,而不太重要的特征赋予较小的权值。有时,这些权值可以根据特征的相对重要性的领域知识确定,也可以自动确定。例如,有些分类方法,如支持向量机,产生分类模型,其中每个特征都赋予一个权值。具有较大权值的特征在模型中所起的作用更加重要。在计算余弦相似度时进行的对象规范化也可以看作一类特征加权。2.3.5 特征创建常常可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。此外,新属性的数目可能比原属性少,使得我们可以获得前

7、面介绍的维归约带来的所有好处。下面介绍三种创建新属性的相关方法:特征提取、映射数据到新的空间和特征构造。1.特征提取由原始数据创建新的特征集称作特征提取(featureextraction)。考虑照片的集合,按照照片是否包含人脸分类。原始数据是像素的集合,因此对于许多分类算法都不适合。然而,如果对数据进行处理,提供一些较高层次的特征,诸如与人脸高度相关的某些类型的边和区域等,则会有更多的分类技术可以用于该问题。可是,最常使用的特征提取技术都是高度针对具体领域的。对于特

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。