欢迎来到天天文库
浏览记录
ID:28099705
大小:28.50 KB
页数:6页
时间:2018-12-08
《机器学习43条军规 谷歌机器学习工程最佳实践大解密.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、机器学习43条军规谷歌机器学习工程最佳实践大解密 整理:张相於 作者介绍 MartinZinkevich现在是谷歌大脑的高级科学家,负责和参与了YouTube、GooglePlay以及GooglePlus等产品中的机器学习项目,本文也是基于作者在这三个产品上面做机器学习项目的各种经验和教训提炼而成。在加入谷歌之前是雅虎的高级科学家,曾在2010年和2011年两度获得雅虎的最高荣誉YahooTeamSuperstarAwards,对雅虎的广告系统做出过很多杰出贡献。 梗概介绍 本文把在产品
2、中应用机器学习的过程从浅到深分成了三个大的阶段,又在这三个大的阶段中细分出了一些方面,以此对43条规则进行逻辑分类。简单来说,如果你是从头开始做机器学习系统,那么就可以在不同阶段参考这里面对应的条目,来保证自己走在正确的道路上。 正文开始 Tomakegreatproducts:domachinelearninglikethegreatengineeryouare,notlikethegreatmachinelearningexpertyouaren’t. 这句话一定程度上是对整篇文章(叫手
3、册可能更合适)的一个高度概括,ML在实际工作确实更多是工程问题,而不是算法问题。优先从工程效率中要效果,当把这部分榨干后,再考虑算法的升级。 BeforeMachineLearning Rule#1:Don’tbeafraidtolaunchaproductwithoutmachinelearning. 规则1:不要害怕上线没有机器学习的产品。 中心思想一句话概括:Ifyouthinkthatmachinelearningwillgiveyoua100%boost,thenaheurist
4、icwillgetyou50%ofthewaythere. Rule#2:First,designandimplementmetrics. 规则2:在动手之前先设计和实现评价指标。 在构建具体的机器学习系统之前,首先在当前系统中记录尽量详细的历史信息,留好特征数据。这样不仅能够留好特征数据,还能够帮助我们随时了解系统的状态,以及做各种改动时系统的变化。 Rule#3:Choosemachinelearningoveracomplexheuristic. 规则3:不要使用过于复杂的规则系统
5、,使用机器学习系统。 简单来讲,复杂的规则系统难以维护,不可扩展,而我们很简单就可以转为ML系统,变得可维护可扩展。 MLPhaseI:YourFirstPipeline 构建第一个ML系统时,一定要更多关注系统架构的建设。虽然机器学习的算法令人激动,但是基础架构不给力找不到问题时会令人抓狂。 Rule#4:Keepthefirstmodelsimpleandgettheinfrastructureright. 规则4:第一个模型要简单,但是架构要正确。 第一版模型的核心思想是抓住主要
6、特征、与应用尽量贴合以及快速上线。 Rule#5:Testtheinfrastructureindependentlyfromthemachinelearning. 规则5:独立于机器学习来测试架构流程。 确保架构是可单独测试的,将系统的训练部分进行封装,以确保其他部分都是可测试的。特别来讲: 测试数据是否正确进入训练算法。检查具体的特征值是否符合预期。 测试实验环境给出的预测结果与线上预测结果是否一致。 Rule#6:Becarefulaboutdroppeddatawhencopy
7、ingpipelines. 规则6:复制pipeline时要注意丢弃的数据。 从一个场景复制数据到另一个场景时,要注意两边对数据的要求是否一致,是否有数据丢失的情况。 Rule#7:Turnheuristicsintofeatures,orhandlethemexternally. 规则7:将启发规则转化为特征,或者在外部处理它们。 机器学习系统解决的问题通常都不是新问题,而是对已有问题的进一步优化。这意味着有很多已有的规则或者启发式规则可供使用。这部分信息应该被充分利用(例如基于规则的
8、推荐排序时用到的排序规则)。下面是几种启发式规则可以被使用的方式: 用启发规则进行预处理。如果启发式规则非常有用,可以这么用。例如在垃圾邮件识别中,如果有发件人已经被拉黑了,那么就不要再去学“拉黑”意味着什么,直接拉黑就好了。 制造特征。可以考虑从启发式规则直接制造一个特征。例如,你使用启发式规则来计算query的相关性,那么就可以把这个相关性得分作为特征使用。后面也可以考虑将计算相关性得分的原始数据作为特征,以期获得更多的信息。 挖掘启发式规则的原始输入。如果有一个app的
此文档下载收益归作者所有