三大特征选择策略对比,提升机器学习格调不是问题.doc

三大特征选择策略对比,提升机器学习格调不是问题.doc

ID:27822504

大小:89.00 KB

页数:4页

时间:2018-12-06

三大特征选择策略对比,提升机器学习格调不是问题.doc_第1页
三大特征选择策略对比,提升机器学习格调不是问题.doc_第2页
三大特征选择策略对比,提升机器学习格调不是问题.doc_第3页
三大特征选择策略对比,提升机器学习格调不是问题.doc_第4页
资源描述:

《三大特征选择策略对比,提升机器学习格调不是问题.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、三大特征选择策略对比,提升机器学习格调不是问题   什么是特征选择?在解决问题时,总会有许多不相关的东西掺杂其中,那我们就需要找寻他们的关键特征进行清晰建模。伴随这一问题的还有大量数据问题,它们有时是多余的,或者不甚相关。特征选择是这样一个研究领域,它试图通过算法完成重要特征的选取。  为什么不把全部特征直接丢进机器学习模型呢?  现实世界的问题并没有开源数据集,其中更没有与问题相关的信息。而特征选择有助于你最大化特征相关性,同时降低非相关性,从而增加了构建较好模型的可能性,并减小模型的整体大小。  顶级的特征选择方法  

2、比如说我们要预测水上公园的票价走势;为此我们决定查看天气数据、冰淇淋销量、咖啡销量以及季节状况。  从下表中我们可以看到,夏季的门票明显比其他季节好卖,而冬季卖不出一张票。咖啡销量整年中比较稳定,冰淇淋则一年之中都有销量,但旺季是6月。  表1:文中使用的各项虚构数据。    图1:各项虚构数据的图示对比。  我们想要预测水上公园票价,但很可能不需要所有数据以得到最佳结果。数据存在N个维度,并且K数值会给出最佳结果。但是不同大小的子集之间存在大量的结合。  我们的目标是减少维度数量,同时不损失预测能力。让我们退回一步,看看

3、那些我们能使用的工具。  穷举搜索  这项技术能100%保证找到最好的可能特征以建立模型。我们认为它非常可行,因为它将搜索所有可能的特征组合并找到返回模型最低点的组合。  在我们的例子中有15个可能的特征组合可供搜索。我使用公式(2—1)计算组合的数量。这个方法在特征数量较少的时候可行,但如果你有3000个特征就不可行了。  幸运的是,还有一个稍微好点的方法可用。  随机特征选择  大多数情形中,随机特征选择可以工作的很好。如果要将特征数减少50%,只需随机选择其中50%的特征并删除。  模型训练完成之后,检验模型的性能

4、,重复这个过程直到你满意为止。遗憾的是,这仍然是个蛮力方法。  当需要处理一个很大的特征集,又不能削减规模的时候,该怎么办?  最小冗余最大关联特征选择  将所有的想法整合起来就能得出我们的算法,即mRMR特征选择。算法背后的考虑是,同时最小化特征的冗余并最大化特征的关联。因此,我们需要计算冗余和关联的方程:    让我们用虚构的数据写一个快速脚本来实现mRMR:    我并没有对结果抱有什么期待,冰淇淋的销量看起来能很精确地对售票量建模,而气温不可以。在这个例子中,似乎只需要一个变量就可以精确地对售票量建模,但在实际的问

5、题中肯定不是这样的。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。