2015天池移动推荐算法大赛总结报告

2015天池移动推荐算法大赛总结报告

ID:12982965

大小:1.14 MB

页数:33页

时间:2018-07-20

2015天池移动推荐算法大赛总结报告_第1页
2015天池移动推荐算法大赛总结报告_第2页
2015天池移动推荐算法大赛总结报告_第3页
2015天池移动推荐算法大赛总结报告_第4页
2015天池移动推荐算法大赛总结报告_第5页
资源描述:

《2015天池移动推荐算法大赛总结报告》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、北京仰望星空大学第一Carry报告阿里移动推荐算法大赛北京仰望星空大学第一Carry团队总结报告32北京仰望星空大学第一Carry报告目录1.团队介绍21.1团队简介21.2队员简介21.3团队亮点22赛题描述32.1题目描述32.2数据介绍33解决方案43.1问题建模43.2数据分析53.3数据预处理93.3.1用户过滤93.3.2行为衰减系数计算103.4训练集构造113.5特征工程133.5.1User-itemfeatures143.5.2Userfeatures153.5.3Itemfeatures163.5.4User-categoryfeat

2、ures&categoryfeatures183.5.5Crossfeatures193.5.6排序特征193.5.7地理特征223.6算法框架233.6.1基本介绍233.6.2模型训练253.5.3模型融合263.6最终结果284.赛后实现294.1改进:二级分类器(LR过滤)29附录32投稿论文3232北京仰望星空大学第一Carry报告1.团队介绍1.1团队简介队名:北京仰望星空大学第一Carry介绍:我们是本次大赛队名最长的队伍,我们保证没有人能从排行榜中看到我们的全称。我们身处帝都,而学校却在9环以外。这里空气清新,没有雾霾,可以举头望星空,低头

3、敲代码。Carry则是刀塔中的大后期,也预示着我们是厚积薄发的队伍,无bug不成长。1.2队员简介姓名学校学历专业方向顾茂杰中国科学院计算技术研究所在读研究生自然语言处理李强中国科学院计算技术研究所在读研究生算法理论1.3团队亮点这次比赛中,我们团队的解决方案主要有以下亮点:1)行为衰减系数的统计2)双12异常波动的处理:滑动窗口和特征提取3)排序特征:数值特征转化为排名4)地理特征提取:用kmeans聚类划分区域32北京仰望星空大学第一Carry报告1)LR-Blending2)赛后实现的二级分类:先用LR分类,再用GBDT学习,单模型成绩可达8.735

4、%2赛题描述2.1题目描述本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。训练数据包含了抽样出来的一部分用户在一个月时间(2014.11.18~2014.12.18)之内的移动端行为数据。评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。评测标准是F1值,设参赛者预测的购买集合为PredictionSet,实际的购买集合为Referen

5、ceSet,则F1值为F1=2×∩(PredictionSet,ReferenceSet)PredictionSet+ReferenceSet.2.2数据介绍用户的移动数据端行为数据保存在数据库表中,共有6个字段:user_id用户标识32北京仰望星空大学第一Carry报告item_id商品标识behavior_type用户对商品的行为标志user_geohash用户位置item_category商品的分类标志time行为时间商品子集表有三个字段:item_id商品标识item_geohash商品位置的空间标志item_category商品分类标志3解决方

6、案3.1问题建模问题相当于给定一个user-itempair(用户商品对,简称UI对),判断在12月19日当天会不会发生购买行为,这是一个二分类问题。在这里,又涉及到要判断的UI对是否有历史行为,也就是是否交互过。l未交互推荐:常见用协同过滤或者关联规则等方法进行推荐。l交互推荐:用历史行为去预测。协同过滤等推荐方法是给用户推荐比较相似或者合用户口味的商品,但是本次比赛仅预测在一天的购买,随机成分太大,之前用户没有浏览的商品很难在接下来一天突然购买。而且未交互的UI对非32北京仰望星空大学第一Carry报告常多,从茫茫多的未交互UI对中选出接下来一天有购买

7、行为的比较困难,时间和平台资源都不允许,所以本次比赛我们组不考虑未交互推荐。本次比赛我们组只考虑有交互推荐,也就是之前有过交互行为的UI对的购买。3.2数据分析首先对基本的数据集做简单统计。移动数据端行为数据集基本信息样本集条目数5822532780用户数5000000商品数156226243类别数13128有地理位置条目数1843447665 用地理位置用户数4058116 点击数5485770636 收藏数114443273 购物车数165006962 购买数57311909 32北京仰望星空大学第一Carry报告被商品子集覆盖的行为数据基本信息样本集

8、条目数524484376用户数4993297 商品数1343516

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。