欢迎来到天天文库
浏览记录
ID:44287565
大小:915.65 KB
页数:74页
时间:2019-10-20
《天池实践手册文库》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Alibaba天池实践手册刖弓木手册从天池选手的角度出发,建模以及预测。通过具体的案例场漿引导用户使用御膳房平台进行数据开发、数据本手册将从以下儿个步骤來描述如何使用御膳房进行数据分析和建模:•课题介绍•环境和账号•获取数据•实现步骤由于是基于特定案例引导,本文展示的仅仅是ODPS和算法功能的冰山一角。关于详细的ODPS和算法功能,可以通过在线帮助手册了解更多。请参考ODPS在线帮助手册。主要参考模块:基木介绍、常用命令、SQL语法,MR语法。关于MR的使用和配置力法请参考御膳房用户手册。内容前
2、言I内容II1课题介绍11.1课题介绍错误!未定义书签。1.1.1数据说明21.1.2输出要求31.1.3评估指标31.2解题思路32环境、账号52.1登录御膳房错误!未定义书签。3获取数据73.1项H首页73.2查看数据94实现步骤104.1数据开发平台的使用(以下也称IDE)114.1.1准备工作114.1.2数据分析154.1.3特征工程214.2PAI平台474.2.1PAI简介474.2.2数据抽样494.2.3建模和评估544.2.4PAI命令及模型同步644.2.5线上测试集的训练
3、和预测65名词解释68修订历史691课题介绍1-1背景随着移动电商业务的快速发展,用八对移动端网络的访问是随时随地的,具有更丰富的场景数据。如何在这些巨大的信息数据小快速挖掘出对我们有用的信息己成为当前急需解决的问题。对于移动电商來说,可以运用这些冇用的信息以及个性化技术的手段,对川户进行一系列的个性化推荐,帮助用户从这些网络过量的信息里面筛出他所需耍的信息,提升移动端用八的用户体验,提升个性化推荐引导的成交率,从而达到楮准营销(Precisionmarketing)的目的。如下是一个简单的个性
4、化推荐的流程:数据准备数据辕化数据抽取数据挖掘挖掘应用数据收集户为据动据易据“用行数互数交数・结构化数据非结构I化数据0—0关联规则分析个性化推荐析洗构解清重舅类分析数据过滤敖据映射数据关联数据融合数据模型1.2课题介绍本课题以阿里巴巴移动电商平台的真实用户■商品行为数据为基础,同时提供移动时代特有的位置信息。您需要通过人数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。在真实的业务场景下,我们往往需要对所有商晶的一个子集
5、构建个性化推荐模型。在完成这件任务的过程屮,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。如下是一个真实的业务场景:给出一定量川户在时间段“月18H-12月18FI内的移动端行为数据(D),需要预测12月19日用户对商品了集(P)的购买数据。具体的数据说明下面将会详细介绍。1-2.1数据说明提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_mobile_recommend_t「ain_user,包含如卜-字段:字
6、段字段说明提取说明userjd用户标识抽样&字段脱敏item」d商品标识字段脱敏behavior_type用户对商品的行为类型包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4ouser_geohash用户位置的空间标识,可以为空由经纬度通过保密的算法生成item_category商品分类标识字段脱敏Time行为时间精确到小时级别D集合的记录显示如F:user.iditem.idbehavior.typeuser.geohashiten^categorytine995125543732
7、0317394gn6nd92322014-11-2620_9909811一266982489134752014-12-02239869256827121464194h63np52012014-11-191396089426_114407102二1949g5i38362014-11-260790795949402391768194h6dlp30462014-12-0921963634563791268151107322014-12-0723_9599383078579528150272014-12
8、-101095591350584293341J95ipq3o41902014-12-111396927552101192540294oid7242802014-12-0519毎一行代表了用户use「_id対属于分类item_category的物品item」d在time这个时间于地点user_geohash发牛了交互,交互类型是behavior_type。behavior_type包括浏览、收藏、加购物车、购买,对应収值分别是1、2、3、4。给出的一共包含31天的交互数据,最后要预测第32天冇哪些
此文档下载收益归作者所有