数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)

数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)

ID:1449810

大小:1.95 MB

页数:34页

时间:2017-11-11

数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)_第1页
数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)_第2页
数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)_第3页
数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)_第4页
数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)_第5页
资源描述:

《数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历)蔡珉星厦门大学数据库实验室2013级硕士研究生指导老师:林子雨http://dblab.xmu.edu.cn2014年11月1日遇到的问题目录什么是推荐系统阿里巴巴大数据竞赛推荐算法入门Part1什么是推荐系统帮助用户从大量信息中找到自己感兴趣的信息。比如你今天想下载一部电影看看,但当你打开某个下载网站,面对100年来发行的数不胜数的电影,你会手足无措,不知道该看哪一部。推荐系统可以根据你以往的观影记录,为你推荐相关的电影。推荐可以两方面入手:基于内容的推荐->相关导演、演员的其他作品;基于协同过滤的推荐->找到与自己历史兴趣

2、相同的用户群,推荐该用户群喜欢的电影。什么是推荐系统什么是推荐系统电影应用(豆瓣电影):《盗梦空间》的推荐推荐构成:导演、演员其他作品;同类型电影。什么是推荐系统音乐应用(虾米音乐):推荐构成:喜欢的歌曲所属专辑的其他曲目;风格类似的曲目。什么是推荐系统电商应用(京东商城):推荐构成:协同过滤、属性类似的商品。《推荐系统实践》的推荐什么是推荐系统推荐系统的本质通过一定的方式将用户与物品联系起来。Part2阿里巴巴大数据竞赛阿里巴巴大数据竞赛7000+参赛队伍,凸显了如今大数据方向的热门赛题介绍在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最

3、重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。阿里巴巴大数据竞赛比赛形式设计一个推荐算法,基于算法和已有数据得出第五个月用户可能购买的品牌。训练集:用于建立模型;验证集:用于评估模型。例如可以用1-2月的数据作为训练集,3月的数据作为验证集,以此来检验算法的效果。然后再用3-4月的数据作为训练集,得出推荐结果。最终提交推荐结果,由系统给出分数。评估指标预测的品牌准确率越高越好,也希望覆盖的

4、用户和品牌越多越好。阿里巴巴大数据竞赛参赛成绩:第60名比赛时间较长,持续4个月,比较耗时间。后劲不足,没有达到预期的成绩。通过竞赛,对推荐算法的入门有了深入的理解与实践。阿里巴巴大数据竞赛Part3推荐算法入门阿里大数据竞赛提供的数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。对数据的处理:提取特征特征:推荐算法所考虑的因素,如用户过去一个月对品牌的点击次数用户过去一个月对品牌的购买次数品牌过去一个月的总销量......推荐算法原始数据处理后的特征数据算法1:简单的推测"规律"点击次数多,购买可能性较大;加入购物车、

5、收藏,购买可能性较大;最近有浏览过的品牌,购买可能性较大;......推荐算法点击次数与是否购买的关系算法1:简单的推测"规律"首先将数据转化为特征值:点击次数click加入购物车is_cart收藏is_fav几天前有浏览过days实现1:直接利用规律if(this.days<=2&&this.click>=10)thenrecommend(this);if(this.is_cart&&days<=3)thenrecommend(this);....推荐算法简单粗暴且有效,只要规律找的好,效果还是可以的算法1:简单的推测"规律"点击次数click加入购物车is_cart收藏

6、is_fav几天前有浏览过days实现2:设定权值,并计算分值(通过验证集找到较优权值)W=w1*click+w2*is_cart+w3*is_fav+w4*1/days例如得到一个较有权值:w1=0.1,w2=0.2,w3=0.2,w4=0.5推荐算法简单有效,实现方便,有一定效果用户品牌交互数据得分1133click=2,is_cart=1,is_fav=0,days=11.42133click=10,is_cart=0,is_fav=0,days=51.1√算法2:逻辑回归(Logisticregression)Logisticregression(逻辑回归)是当前业

7、界比较常用的机器学习方法,用于估计某事件的可能性。如某用户购买某商品的可能性、广告被某用户点击的可能性等。推荐算法公式定义将可能性限定在0和1之间算法2:逻辑回归(Logisticregression)组成1:回归回归是对已知公式的未知参数进行估计。如已知公式是y=a*x+b,未知参数是a和b。我们现在有很多真实的(x,y)数据(训练样本),回归就是利用这些数据对a和b的取值去自动估计。推荐算法算法2:逻辑回归(Logisticregression)组成2:线性回归如鞋子定价与鞋子销量的问题。y=a*x+b,x是价

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。