数据竞赛思路分享:机场客流量的时空分布预测

数据竞赛思路分享:机场客流量的时空分布预测

ID:21678925

大小:947.00 KB

页数:17页

时间:2018-10-23

数据竞赛思路分享:机场客流量的时空分布预测_第1页
数据竞赛思路分享:机场客流量的时空分布预测_第2页
数据竞赛思路分享:机场客流量的时空分布预测_第3页
数据竞赛思路分享:机场客流量的时空分布预测_第4页
数据竞赛思路分享:机场客流量的时空分布预测_第5页
资源描述:

《数据竞赛思路分享:机场客流量的时空分布预测》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据竞赛思路分享:机场客流量的时空分布预测1.问题描述机场拥有巨大的旅客吞吐量,与巨大的人员流动相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量,并据此提前调配人力物力,更好的为旅客服务。本次大赛以广州白云机场真实的客流数据为基础,每天数万离港旅客在机场留下百万级的数据记录。希望参赛队伍通过数据算法来构建客流量预测模型。2.数据概览提供的数据:3.1初赛数据描述初赛提供了2016-10-09至2016-09-25的数据3.2初赛问题描述选手需要预测未来三小时(9月25日15:00:00到18:00)的时间

2、窗口里,机场内每个WIFIAP点每10分钟内的平均设备连接数量3.3初赛解决方案简要概括:均值加趋势数据预处理:提供的表格中时间数据都是精确到秒,而所提交的结果要求是每10分钟的平均情况,所以我们首先需要将数据按照每十分钟的间隔汇总起来(详细代码见Github)此处提供两种方案:以airport_gz_wifi_ap表为例截取time_stamp的部分字符串,然后按照截取的time_stamp和wifi_ap_tag进行aggregatet=t0[:15]#例如将t0=2016-09-10-18-55-04截取为t=2016-09-10-18-5将数据按照时间排序

3、,然后抽出每十分钟的数据进行处理后整合,这个方式可能会比较麻烦,但是这个方式有他的优势,我们只需调整一个参数,便能让数据按照任意的时间间隔进行统计,便于以后复用函数此处附加Python处理时间格式的一些函数我们可以直接使用pandas中的参数解析时间数据#Normaldf=pd.read_csv(path,parse_dates=['columnname'])#Specialdateparse=lambdax:pd.datetime.strptime(x,'%Y-%m-%d%H:%M:%S')df=pd.read_csv(path,parse_dates=['co

4、lumnname'],date_parser=dateparse)当然也可以自己写函数处理importpandasaspddefReturnTimeElement(Date):return[int(t)fortinDate.split('-')]defTransToTime(TimeElement):returnpd.datetime(*(TimeElement))defGetTime(Date):TimeElement=ReturnTimeElement(Date)Time=TransToTime(TimeElement)returnTimeT='2016-10

5、-19-9-47-00'>>>GetTime(T)datetime.datetime(2016,10,19,9,47)处理后可以得到如下数据,命名为WIFITAPTag_Mean_All问题分析:对于这个预测问题有以下关键两点:机场每天的排班表基本稳定,用户在机场内的行走模式也基本稳定时间序列具有一定程度的连续性,下午三点至六点的情况会一定程度延续此前几小时的情况基于以上两点想法,就得到了两个基本模型:均值模型和时间序列模型比赛初期只提供了前三个表格,所以开始就注重分析了这几个表格,例如从WIFIAPTag中可以提取出大概的位置信息和楼层信息,分组统计不同区域的W

6、IFIAP是否有接近的模式,同时也可从安检和出发表格中寻找一定的关联等等。但是经过分析发现,airport_gz_security_check及airport_gz_departure的数据虽然和airport_gz_wifi_ap的数据有一定的关联,但是其本身存在较大的随机因素,用随机预测随机存在太大的变数,不如只使用airport_gz_wifi_ap中的数据进行更稳定的预测(当然肯定也有队伍能很好得从airport_gz_security_check及airport_gz_departure中提出很很棒的特征)。后期提供的几个表格由于数据质量问题,经分析后发

7、现贡献不是特别大,故也没有进一步利用。因而之后要说的均值模型和时间序列模型都基于WIFITAPTag_Mean_All表格的数据,并且是以WIFIAP为对象,每一个分开预测。数据探索:接下来让我们对数据有一个大概的了解defGetTimeSeries(WIFIAPTag):'''GetWIFIAPTag'sTimeSeries'''Tag_Data=WIFITAPTag_Mean_All[WIFITAPTag_Mean_All.WIFIAPTag==WIFIAPTag]MinTime=min(Tag_Data.Time)MaxTime=max(Tag_Data.T

8、ime)D

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。