特征工程指南(完整版)--------翻译来自 毕辉

特征工程指南(完整版)--------翻译来自 毕辉

ID:39273424

大小:1.12 MB

页数:24页

时间:2019-06-29

特征工程指南(完整版)--------翻译来自 毕辉_第1页
特征工程指南(完整版)--------翻译来自 毕辉_第2页
特征工程指南(完整版)--------翻译来自 毕辉_第3页
特征工程指南(完整版)--------翻译来自 毕辉_第4页
特征工程指南(完整版)--------翻译来自 毕辉_第5页
资源描述:

《特征工程指南(完整版)--------翻译来自 毕辉》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、特征工程指南--------翻译来自毕辉,如需转载请注明。如因翻译差错造成任何损失,本人概不负责。更多内容见原版英文PPT。特征工程数据科学最有创造力的方面。要像其他任何有创造力的尝试一样对待它,就想写一个喜剧的秀。坚持头脑风暴创建模板或公式检查/重新审视以前的工作特征分类一些预处理似乎永远都是必要的很高的基数(即包含大量不同的值)会带来很稀疏的数据填补缺失值是一个难点Onehot编码One-of-K给一个长度为K的数组编码基本方法:大多使用一些线性的算法去掉第一列避免共线性稀疏格式是记忆友好的(便于存储)目前对待缺

2、失值的大部分实现方法都不够优雅,没有考虑变量。哈希编码对固定长度的数组进行Onehot编码避免极度稀疏的数据可能会引发冲突性可用不同的哈希函数重复操作并bagging小凹凸精度的结果冲突性可能会降低结果的准确度,也可能提升结果的准确度优雅的处理新的变量(比如newuser-agents)标签编码给每个类一个独一无二的数字化ID对于非线性的基于树模型的算法很有用不增加维度完全打乱cat_var--num_id的映射并重新训练,平均小凹凸精度。Count编码用训练集里的count替换对应的变量对线性或非线性的算法都适用对

3、异常值敏感可以加入对数变换,和counts一起使用时效果良好用‘1’代替没有考虑的变量可以主动给一些冲突性:相同的编码,不同的变量LabelCount编码按训练集中的counts等级给变量分类对线性或非线性算法都适用对异常值不敏感不会对不同的变量进行相同的编码两全其美目标编码用目标的比例对类别变量编码(二元分类或回归)注意避免过拟合Stacking的形式:输出目标的平均值的单变量模型记得做交叉验证加入平滑性避免出现编码为0的情况加入随机噪声避免过拟合当被正确的应用时,是最好的线性或非线性编码嵌入类别用神经网络来创建类

4、别变量的稠密层在函数近似问题中将类别变量映射到欧式空间模型训练更快更少的存储开销比Onehot编码更精准NaN编码给NAN值一个明确的值来代替其被忽略的情况NAN值可以保存信息注意避免过拟合仅当NAN值在训练集和测试集中一致或在本地验证了其独立性时方可使用多项式编码为类别变量间的交互进行编码没有交互的线性算法不能解决XOR问题(逻辑运算)一个拥有多项式的内核可以解决XOR问题探索特征空间,用:FS,Hashingand/orVW扩张编码从一个单变量创建多个类别变量一些高基数的特征,比如user-agents,里面有非

5、常多的信息:is_mobile?Is_latest_version?Operation_systemBrowser_buildEtc整合编码将不同的类别变量映射到同一个变量中拼写错误,稍有不同的工作描述,全名vs缩写真实的数据是散乱的,自由文本尤其如此找出特征是很难的,费时,需要专业的知识。应用机器学习基本上就等于特征工程。--------------AndrewNg数字化特征使数据进入算法更容易可由floats,counts,numbers组成更易估算缺失值凑整数字化变量的凑整有损耗的压缩方式:保存数据中大部分重要

6、的特征有时候太过精准反而会带来噪声被凑整的变量可以当做类别变量在凑整前可进行对数变换装箱把数字化变量放入箱中,并用bin-ID编码用分位数装箱是很实用的,甚至可以用模型找出可选的箱可以优雅的找到训练集范围外的变量缩放将数字化变量缩放到一个确定的范围内标准化缩放最大最小缩放根缩放对数缩放填补填补缺失值用缺失值组合硬编码求平均:相当基础求中位数:应对离群点时更健壮直接忽略:只是推迟问题使用模型:可以暴露算法偏差交互数字化变量间具体的交互编码尝试:减,加,乘法,除法使用:通过统计检验进行特征选择,或通过训练集对特征重要性排

7、序易忽略:人的直觉;有时一些诡异的交互会带来出其不意的效果机器学习项目众多,有点成功了,有的失败了。到底是什么造成了它们的区别?简单来说最重要的就是对特征的使用。------------PredroDomingos线性算法的非线性编码用非线性硬编码来改进线性算法多项式内核叶编码(嵌入随机森林)遗传算法局部线性嵌入,谱嵌入,t-SNE行统计NAN值数零值数负值数平均值,最大值,最小值,偏度,等时间变量时间变量,比如日期,需要更好的本地验证方案(比如回溯测试)这里很容易犯错有很多机会获得重大突破投影到圆内将单个的特征,比

8、如day_of_week,投影到一个圆的两个坐标上确保max和min间的距离等于min和min+1间的距离使用day_of_week,day_of_month,hour_of_day趋势线代替编码:总花费,对某件事编码要像:上周的花费,上个月的花费,上一年的花费给出一个算法趋势:两个顾客花费相当,但却有截然不同的表现方式-------一个顾客可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。