欢迎来到天天文库
浏览记录
ID:40552977
大小:4.10 MB
页数:38页
时间:2019-08-04
《包勇军_京东电商广告和推荐系统的机器学习系统实践》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、包勇军京东京东广告和推荐的机器学习系统实践目录背景介绍浅层模型时代深度学习时代背景介绍
2、我们的业务210%&(35)%(4&/.&( '*-#+"24&$,*!背景介绍
3、问题主要解决的问题机器学习在排序算法中的应用特点:实时,在线广告,推荐的混合系统目录背景介绍浅层模型时代深度学习时代浅层模型时代
4、机器学习系统核心问题模型算法日志流训练系统特征系统评估系统浅层模型时代
5、模型算法浅层模型算法:大规模稀疏性特征建模,lr核心优化方向:特征手工特征工程特征组合算法:
6、Fm/ffmgbdt+lr浅层模型时代
7、模型算法Fm/ffm通过因式分解,减少数据稀疏性,有效学习特征组合参数规模:n^2降为k*n(k<8、特征系统特征系统主要问题:线上线下特征一致性根据经验,线上线下特征一致性的架构,在业务指标上能带来数量级的提升浅层模型时代9、特征系统架构演化第一版,开始引入机器学习模块,问题产生ApplicationServerPredictor instance Predictor Mo10、delinstanceRawLogOfflineFeatureTrainingExtractionSystem浅层模型时代11、特征系统架构第二版,解决代码不一致,代码复用ApplicationServerPredictor instance Predictor ModelFeatureExtractionLibraryinstanceRawLog?OfflineFeatureTrainingExtractionSystem浅层模型时代12、特征系统架构第三版,解决数据不一致,彻底保证正确性ApplicationServerPredictor13、 instance Predictor ModelRawLogInstanceLogTrainingSystem浅层模型时代14、特征系统特征系统架构演变小结特征=数据源+抽取算法第一版是自然的选择机器学习系统是优化阶段的工作,先有日志后有机器学习第二版是策略效率为先的选择策略人员驱动后续的技术升级,离线代码驱动,先有离线代码后有在线代码日志量Double引发的资源担忧特征优化可以回朔历史数据,周期短第三版是保证策略收益的选择在线系统驱动特征升级,牺牲开发效率,保证正确性浅层模型时代15、模型效果评估评估指标AUCIn16、verseRatio评估系统的主要问题:各种乌龙,结论不可信旧方案:离线工具评估离线指标新方案:在线系统评估离线指标浅层模型时代17、模型效果评估在线旁路评估系统将在线predictor作为离线评估的inference工具将在线日志流作为离线评估数据离线测试模型接入在线predictor集群浅层模型时代18、旁路评估架构图引入在线旁路评估后系统图OnlineEvaluationSystemTraningDataPipelineMetricsMetricsflumekafakastormUIcomputationStoragePredictor Zoo19、KeeperProxyrequestroutingPredictorClusterSystempredictor…predictor浅层模型时代20、在线旁路评估收益数据可比,可信工具到服务平台的升级避免数据diff和工具bug的干扰彻底解决在线实时服务模型中的评估穿越问题浅层模型时代21、模型效果评估在线实时服务模型中的评估穿越问题Unseendata,历史数据预估新数据数据分布变化更快,泛化性要求更高推荐中的新兴趣点广告中的新广告TimeTime浅层模型时代22、训练系统浅层模型训练系统的核心问题:大数据的效率问题SamplingDistribut23、edtraining,libfmonvowpalwabbitIncrementalOnlinelearning:Assumption:stationary->conceptdrift好处:statetrack,时效性问题:系统复杂,需要增加实时计算系统更新频繁,增加了系统耦合特征和算法升级麻烦浅层模型时代24、多目标优化业务目标:广告收入(year2014)eC
8、特征系统特征系统主要问题:线上线下特征一致性根据经验,线上线下特征一致性的架构,在业务指标上能带来数量级的提升浅层模型时代
9、特征系统架构演化第一版,开始引入机器学习模块,问题产生ApplicationServerPredictor instance Predictor Mo
10、delinstanceRawLogOfflineFeatureTrainingExtractionSystem浅层模型时代
11、特征系统架构第二版,解决代码不一致,代码复用ApplicationServerPredictor instance Predictor ModelFeatureExtractionLibraryinstanceRawLog?OfflineFeatureTrainingExtractionSystem浅层模型时代
12、特征系统架构第三版,解决数据不一致,彻底保证正确性ApplicationServerPredictor
13、 instance Predictor ModelRawLogInstanceLogTrainingSystem浅层模型时代
14、特征系统特征系统架构演变小结特征=数据源+抽取算法第一版是自然的选择机器学习系统是优化阶段的工作,先有日志后有机器学习第二版是策略效率为先的选择策略人员驱动后续的技术升级,离线代码驱动,先有离线代码后有在线代码日志量Double引发的资源担忧特征优化可以回朔历史数据,周期短第三版是保证策略收益的选择在线系统驱动特征升级,牺牲开发效率,保证正确性浅层模型时代
15、模型效果评估评估指标AUCIn
16、verseRatio评估系统的主要问题:各种乌龙,结论不可信旧方案:离线工具评估离线指标新方案:在线系统评估离线指标浅层模型时代
17、模型效果评估在线旁路评估系统将在线predictor作为离线评估的inference工具将在线日志流作为离线评估数据离线测试模型接入在线predictor集群浅层模型时代
18、旁路评估架构图引入在线旁路评估后系统图OnlineEvaluationSystemTraningDataPipelineMetricsMetricsflumekafakastormUIcomputationStoragePredictor Zoo
19、KeeperProxyrequestroutingPredictorClusterSystempredictor…predictor浅层模型时代
20、在线旁路评估收益数据可比,可信工具到服务平台的升级避免数据diff和工具bug的干扰彻底解决在线实时服务模型中的评估穿越问题浅层模型时代
21、模型效果评估在线实时服务模型中的评估穿越问题Unseendata,历史数据预估新数据数据分布变化更快,泛化性要求更高推荐中的新兴趣点广告中的新广告TimeTime浅层模型时代
22、训练系统浅层模型训练系统的核心问题:大数据的效率问题SamplingDistribut
23、edtraining,libfmonvowpalwabbitIncrementalOnlinelearning:Assumption:stationary->conceptdrift好处:statetrack,时效性问题:系统复杂,需要增加实时计算系统更新频繁,增加了系统耦合特征和算法升级麻烦浅层模型时代
24、多目标优化业务目标:广告收入(year2014)eC
此文档下载收益归作者所有