欢迎来到天天文库
浏览记录
ID:48083936
大小:688.45 KB
页数:4页
时间:2019-11-22
《时间序列相似性与基于搜索数据的预测研究——以九寨沟客流量预测为例.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、⋯⋯洲⋯⋯川⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯川㈣洲洲⋯⋯⋯¨¨⋯l
2、
3、
4、
5、⋯⋯洲⋯⋯⋯⋯¨
6、⋯¨¨⋯⋯洲⋯⋯⋯⋯⋯⋯洲⋯⋯⋯⋯⋯¨¨⋯⋯⋯⋯⋯⋯⋯⋯⋯川
7、
8、
9、
10、
11、㈣¨¨¨¨DOh10.3969/j.j鹞n.1003—1154.2016.02.031时间序列相似性与基于搜索数据的预测研究——以九寨沟客流量预测为例口彭赓刘金炬曾鹏志李晓炫(中国科学院大学经济与管理学院,北京100090)【摘要】时间序列的相似性,可作为从海量搜索数据中筛选有预测能力关键词的重要依据。选取了更适合搜索数据和客流量数据特征的动态时间弯曲方法(DTW),对九寨沟的搜索关键词进行筛选,建
12、立线性和非线性的预测模型。来对客流量进行预测,最终该方法所选关键词与相关系数筛选方法相比具有更好的预测表现。【关键词】搜索数据;动态时间弯曲;相关系数;支持向量机【中图分类号1F590【文献标识码】A【文章编号11003.1154(2016)02.0107.04近来,搜索数据作为一种新的数据源在社会经济研究中得到广泛应用。如何从海量搜索数据中提取有价值的预测信息,筛选有预测能力的关键词以提高预测精度,是搜索数据应用的一个重要问题DI。时间序列相似性是指给定两个时间序列之间存在的相似的趋势特征。在利用时间序列相似性进行的预测研究中,学术界的许多成果
13、,如对股票价格趋势【2】、地震区域划分等口l,均验证了利用相似性原理进行预测具备可行性且效果良好。相关系数本质上也是一种相似性的测度方法,在搜索数据的预测研究中,用相关系数来筛选关键词用于预测是比较常用的方法,但其更适用于对线性时间序列的相似性测度,对异常值比较敏感,不能很好的刻画波动较大的时间序列相似性。因此利用相似性原理筛选关键词用于预测的研究还有改进空间。本文引入动态时间弯曲(DynamicTimeWarping)的相似性测度方法来改进关键词的筛选。这是一种通过弯曲时间轴以更好地实现时间序列形态匹配映射的相似性度量方法,可以有效地处理时间序
14、列沿着时间轴上的波动模式,允许时间序列点发生错位和偏移,并且对异常突变点不敏感[410因此,DTW在测度波动较大的时间序列相似性方面更有效。也更具稳健性。本文以九寨沟客流量预测为例进行实证,通过与相关系数筛选方法的对比,验证DTW方法筛选的关键词是否具有更好地预测效果。一、基于相关系数和DTW的关键词筛选方法介绍(一)基于相关系数的关键词筛选方法筛选最终是为了预测,因此要考虑关键词的提前期。通过计算每个关键词不同提前期与基准指标的相关系数,得到两个指标:领先阶数和相关性。前者是指计算所得的最大相关系数对应的提前期,该相关系数即为相关性指标。领先阶
15、数小于0表示该关键词先行于基准指标发生,是具有预测能力的。相关系数越大的关键词,意味着预测的效果可能会越好。而单个关键词只能反映公众对基准指标关注的一个方面,基准指标的整体趋势需要多个关键词共同刻画。通过对相关系数设定一个临界值。把相关系数较大的关键词筛选出来,再通过合成指数的方式来全面反映基准指标。(二)基于DTW方法的关键词筛选方法DTW的原理是:假设有两个时间序列,X={x,,x9,⋯,xm}和Y={Yl'Yl,⋯,ym},这两个时间序列上任意两点之间的动态时间弯曲距离为:Y(”)=√{d(xi,y{)}2+{min{y(i—l,j—1),
16、r(i一1’j)+r(i’j一1)}}2对于这两个时间序列x和Y,构建一个n×m阶的矩阵,其中(i.j)的第个元素就是两个时间序列的点x;【基金项目】国家自然科学基金项目(71202115,71172199);CCF-腾讯犀牛鸟科研基金(RAGR20150113).2016年第2期墨和y;之间的距离d(x⋯Y)。这两个元素之间的动态弯曲距离是一种累积距离,即Y(i,j)是从元素(x,,Y.)到元素(x.,y.)之间的最小累积距离。因DTW计算量极大,本文将借助R语言的DTW程序包来实现DTW距离的计算过程。DTW值越小,两个序列相似程度越高,波动
17、趋势越一致。实际的预测研究中,搜索数据序列和基准序列经常会存在形状相似,但在时间轴上不完全对齐的情况,比如振幅差异、时间轴上的偏移,还常常会有异常点的存在。DTW恰恰能处理好时间轴上的变形,并能有效地兼容异常点的突变情况,不易漏选。因此,利用DTW方法来测度这类数据的相似性更合理。二、两种筛选方法对比分析——以九寨沟客流量预测为例(一)搜索关键词的获取和预处理九寨沟客流量数据来自九寨沟官网1,搜索数据来自百度指数2。数据的时间区间为2012.6.1至2014.11.30,将2014.5.1以前共计730天作为训练集,2014.6.1至2014.1
18、0.18共计20周140天的数据作为测试集。选取与游客出行信息相关的6个关键词:九寨沟、九寨沟攻略、九寨沟门票、九寨沟天气、九寨沟住宿、
此文档下载收益归作者所有