资源描述:
《QConShanghai2013-刘思喆-R语言在电商领域的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、.回归数据的本质R语言在电商领域的应用.刘思喆数据部推荐系统2013年11月2日......刘思喆(京东商城)QCon20132013年11月2日1/23为什么选择R目㐡推荐系统1.为什么选择R2.应用R的领域3.R应用的技术架构4.应用案例......刘思喆(京东商城)QCon20132013年11月2日2/23为什么选择R使用R语言的背景•京东业务涉及用户、商品、商家、促销、反作弊、风险控制、精准营销、运营优化等•2012年正式启动了大数据平台的搭建,平台底层数据存储和离线运算由hadoop完成......刘思喆(京东商城)QC
2、on20132013年11月2日3/23为什么选择R建模环境简述.数据情况:.•客户维度:亿级->千万级•商品维度:千万级->百万级•数据量:M-G级..分析场景:.1.探索分析:均值、方差、分位数、列联表2.基础分析:如假设检验、相关分析、主成分(因子)分析3.挖掘模型:回归、kmeans聚类、决策树、关联规则、时序等4.可视化图形:条图、直方图、概率密度图、定制化图形5.重复性分析:.......刘思喆(京东商城)QCon20132013年11月2日4/23为什么选择R从R的角度来看•数据挖掘领域应用最广泛的软件和语言(KDnu
3、ggets2012,2013)•完整且丰富的统计、机器学习、可视化平台•数据编程的完美实现•便捷的、可扩展的并行方案(如同hadoop)......刘思喆(京东商城)QCon20132013年11月2日5/23应用R的领域目㐡推荐系统1.为什么选择R2.应用R的领域3.R应用的技术架构4.应用案例......刘思喆(京东商城)QCon20132013年11月2日6/23应用R的领域分析和挖掘模型服务对象•在线商品推荐•搜索词优化•邮件营销(EDM)•移动客户端•市场活动及促销推送•开放平台卖家•.........刘思喆(京东商城)Q
4、Con20132013年11月2日7/23应用R的领域数据分析-洞察业务的利器......刘思喆(京东商城)QCon20132013年11月2日8/23应用R的领域大数据的解决方案Solution1:R同一些特定领域的工具的结合(e.gMapReducestyletools,Hadoop,Streaming,Hive,Pig,Cascading...)R+Hadooprhbase,rmr,rhdfs,RHIPER+MongoDBRMongo,rmongodbR+MPIRmpi,pbdMPISegueAmazon’sWebServic
5、es(EC2)Solution2:通过扩展包,增强读取和处理大数据的能力(e.gbigmemory,ff,biglm...)ffoffersfile-basedaccesstodatasetsthataretoolargetobeloadedintomemorybiglarscanusethefftosupportlarge-than-memorydatasetsforleast-angleregression,lassoandstepwiseregression.bigrfaRandomForestsimplementationwithsu
6、pportforparellelexecutionandlargememory.......刘思喆(京东商城)QCon20132013年11月2日9/23应用R的领域实际应用方案包环境优势劣势BLAS单机直接并行化需要编译使用,且指针对于数学计算有效snow,parallel单机轻量级fork方式Rmpi集群(未采用)Rhadoop集群同现有环境匹配依然有一定开发量使用R生成规则,在hadoop平台做并行......刘思喆(京东商城)QCon20132013年11月2日10/23R应用的技术架构目㐡推荐系统1.为什么选择R2.应用R
7、的领域3.R应用的技术架构4.应用案例......刘思喆(京东商城)QCon20132013年11月2日11/23R应用的技术架构典型工作流一般工作流程1.通过Hive集群获取目标数据2.在R环境下进行数据探索、清洗、转换工作3.R环境下分析建模(FeatrueSelection,Benchmark)4.评估(离线评估和分流量测试)5.线上集成(R,HiveQL,Java,C++,Python...)......刘思喆(京东商城)QCon20132013年11月2日12/23R应用的技术架构典型工作流数据的流动......刘思喆(京
8、东商城)QCon20132013年11月2日13/23R应用的技术架构涉及技术涉及数据挖掘、分析技术的相关R包•数据传递及服务(RHive、RServe、rJava、RJDBC)•清洗及预处理(sqldf、stringr、XML、da