如何基于spark进行用户画像

如何基于spark进行用户画像

ID:35339658

大小:87.33 KB

页数:3页

时间:2019-03-23

如何基于spark进行用户画像_第1页
如何基于spark进行用户画像_第2页
如何基于spark进行用户画像_第3页
资源描述:

《如何基于spark进行用户画像》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、如何基于Spark进行用户画像?近期,comSysto公词分亨了该公司研发团队利用Spark平台解决Kagglc竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的H的是根据路线研发出一个驾驶类科的算法类签名,來表征镯驶员的特征。例如,镯驶员是否氏距离耀驶?短距离駕驶?高速镯驶?回头路握否从某些站点急剧加速?是否高速转弯?所有这些问题的答案形成r农征駕驶员特征的独特标签。面对此挑战,comSysto公司的团队想到了涵盖批处理、流数据、机器学习、图处理、SQL查询以及交

2、互式定制分析等藝种处理模型的Spark平台。他们正好以此挑战赛为契机来增强Spark方面的经验。接下來,木文就从数据分析、机器学习和结果等三个方而介绍comSysto团队解决以上问题的过程。数据分析作为解决问题的第一个步骤,数据分析起着非常关键的作用。然而,出乎comSysto公司团队意料的是,竞赛提供的原始数据非常简单。该数据集只包含了线路的若干匿名坐标对(x.y),如(1.3,4.4)、(2.1,4.8)和(2.9,5.2)等。如下图所示,驾驶员会在每条线路中出发并返冋到原点(0,0),然后从原点挑选随机方向再出发,形成多个折返的

3、路线。拿到数据后,comSysto公司的团队有些气馁:只看坐标很难表征•一个驾驶员吧?!信息指纹的定义因此,在煩始数据如此简单的情况,该团队面临的一个问题就是如何将坐标信息转换为有用的机器学习数据。经过认证思考,其采用了建立信息指纹库的方法,來搜集每一个驾驶员有意义和特殊的特征。为了获得信息指纹,团队首先定义了一系列特征:•距离:所有■相邻两个坐标欧氏距离的总和。•绝对距离:起点和终点的欧氏距离。•线路中停顿的总时间:驾驶员停顿的总时间。•线路总时间:某个特定线路的农项个数(如果假设线路的坐标值为每秒钟记求的数值,路线中农项的个数就是

4、线路的总秒数)。•速度:某个点的速度定义为该点和前一个点之间的欧氏距离。假设朋标单位为米、处标之间的记录时间间隔为1秒,该定义所给出的速度单位就为m/s。然而,本次分析中,速度主要用于对比不同点或者不同镯驶员。只要速度的小位相同即可,并不追求•其绝对值。对于加速、减速和向心加速度,该说明同样成立。•加速度:加I速时,该点和前--点速度的差值•减速度:减速时,该点和询一点速度的差值•向心加速度:英中,v为速度、r为曲线路径所形成圆的半径。半径计算需耍用到当前点、之前和之后的若干个点的坐标信息。而,向心加速度是对驾驶员高速絢驶风格的休现:

5、该值越衣表明转弯的速度越快。-个駕驶员所有线路的上述特征组成了其简历(信息指纹)。根据经验,城市道路和窩速道路上的平均速度是不同的。因此一个驾驶员在所有线路上的平均速度并没有很多意义。ccoSysto选择了城市道路、长距离高速道路和乡村道路等不同路线类型的平均速度和最人速度作为了研究对象。数据统计:根据统计,本次竞赛的数据集中共包含了2700个驾驶员,共54000个线路的信息。所有的线路共包含3.6亿个X/Y坐标——以每秒记录一个朋标來算,共包含10万个小时的线路数据。机器学习在初步的数据准备和特征提取后,ccoSysto队开始选择和

6、测试用于预测驾驶员行为的机器学习模型。聚类机器学习的第一步就是把路线进行分类一coSysto团队选择k-means算法來对路线类型进行自动分类。这些类别根据所有駕驶员的所有路线推导得到,并不针对单个驾驶员。在拿到聚类结果后,ecoSystoW队的第•感觉就是,提取出的特征和计算得到的分类与路线长度相关。这农明,他们能够作为路线类型的一个指针。最终,根据交叉验证结杲,他们选择了8种类型——每条路线指定了一种类型的1D,用于进一•步分析。预测对于駕驶员行为预测,ecoSysto团队选择-个随机森林(randomforest)算法來训练预测

7、模住。该模型用于计算某个特定驾驶员完成给定路线的概率。首先,团队采用下述方法建立了一个训练集:选择一个驾驶员的约200条路线(标为“1”——匹配),再加随机选择的其他驾驶员的约200条路线(标为“0”——不匹配)。然后,这些数据集放入到随机森林训练算法中,产生每个驾驶员的随机森林模型。之后,该模型进行交叉验证,并最终产生Kaggle*赛的提交数据。根据交叉验证的结果,ecoSysto团队选择了10棵树和最人深度12作为随机森林模型的参数。有关更多Spark机器学习库(MLib)中用于预测的集成学习算法的对•比可参考Databrick的

8、博客。流水线ecoSysto团队的工作流划分为了若干用Java应用实现的独立步骤。这些步骤可以通过“spark-submit”命令字节提交给Spark执行。流水线以HadoopSequenceFile作为输入,以CSV文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。