基于网络搜索数据的平遥旅游客流量预测分析

基于网络搜索数据的平遥旅游客流量预测分析

ID:14952898

大小:27.00 KB

页数:6页

时间:2018-07-31

基于网络搜索数据的平遥旅游客流量预测分析_第1页
基于网络搜索数据的平遥旅游客流量预测分析_第2页
基于网络搜索数据的平遥旅游客流量预测分析_第3页
基于网络搜索数据的平遥旅游客流量预测分析_第4页
基于网络搜索数据的平遥旅游客流量预测分析_第5页
资源描述:

《基于网络搜索数据的平遥旅游客流量预测分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于网络搜索数据的平遥旅游客流量预测分析  一、引言  近年来,我国旅游产业规模不断扩大,平遥古城作为中国境内保存最完整的古代县城与票号文化发源地,游客量快速增长,逐年增加的游客对古城承载力及景区建设提出了更高要求。与此同时,随着互联网技术的发展以及大数据时代的到来,旅游信息传播形式、游客信息搜索方式、旅游消费行为等均发生了巨大改变。许多旅游经营者、旅游企业及政府机构都通过互联网平台发布旅游信息,随之互联网平台也成为广大游客出游的重要信息来源,相应产生的网络搜索数据则逐渐成为高质量的游客旅游搜索行为数据库。2016年百度推出的

2、百度指数可以直接、客观地反映某特定时间段内的社会热点、用户兴趣和需求,并且实证表明利用百度指数这一网络搜索指数进行预测克服了传统预测中存在的数据滞后以及数据量不足的缺陷,结果更为准确、更具时效性。因此,本文依托百度指数的时效性,挖掘旅游网络关注度和实际旅游需求的关系,预测景区客流量,对指导旅游管理部门做出科学、合理的决策安排,促进旅游可持续发展具有重要意义。  二、指标选取与数据  指标选取  根据指标选取理论的分析可知,用户搜索行为反映了用户近期行为,但由于搜索用户的异质性,不同用户对某一事物的关注度有所不同,从而使得搜索关

3、键词也具有多样性,且关键词应包含与目标事物相关的各个方面。因此,本文在已有文献基础上,根据相关旅游经验及人们外出旅行时的主要考虑因素,即衣、食、住、行、游5个方面,通过百度指数“趋势研究”和“需求图谱”两个模块来进行关键词的提取,这5个方面涵盖了平遥天气、平遥牛肉、平遥古城住宿、平遥古城门票、平遥古城旅游攻略等多方面信息。本文将这5个方面的相关词作为初始关键词,运用百度关键词挖掘联盟进行关键词搜索,从而得到最终的关键词指标。  数据说明  本文的关键词数据是利用网络爬虫技术从百度指数网页源代码中提取得到的。在利用初始词进行关键

4、词搜索过程中,剔除没有数据对应和数据量很少的关键词,最终得到57个关键词从2016年12月到2016年12月共162周的数据。平遥古城旅游客流量数据来自山西省旅游局,选取的时间区间为2016年12月至2016年12月,共37个数据。由于我们得到的关键词数据为周度数据,而本文研究的是月度数据,所以要对关键词数据进行处理,将周度数据转化为月度数据,即按照日历中各月周数进行加总,将每月最后几天数据按所在周的天数作为权重,将该周的数据按权重分配到相邻月中,最终得到37个月的搜索指数数据。  三、实证分析  首先对模型拟合和预测有两点说

5、明:一是拟合样本区间为2016年12月到2016年10月,共35个数据,用于预测检验的样本区间为2016年的11月到12月2个月的数据。二是在模型拟合效果的比较上,本文引入MSE和NMSE两个指标,分别代表模型的稳定性和拟合度。  搜索关键词确定  首先,利用简单手动筛选,观察所有关键词数据,将趋势变化不明显或几乎无变化趋势的剔除;然后,利用Pearson相关系数筛选,分别计算各关键词与因变量的Pearson相关系数,将相关系数小于的剔除;最后,利用线性回归筛选,并诊断回归的多重共线性和自相关,利用逐步回归及AIC准则选出最终

6、的4个关键词:平遥古城旅游攻略、平遥古城地图、山西旅游景点大全、平遥住宿。  模型估计  在筛选关键词过程中,我们构建了一个线性回归方程,回归估计如下:  从回归结果看,总体拟合效果较好,变量系数均通过显著性检验,因此该线性模型似乎具有较好预测效果。但为进一步考察模型假设是否成立,我们进行残差的Shapiro-Wilk正态性检验,并且刻画了因变量直方图及对应的线性分布图,检验结果均表明因变量不服从正态分布,因此本文利用线性回归进行模型模拟时并不能满足其对因变量分布的假定,从而会产生较大误差,影响拟合和预测效果。  故本文采用了

7、对数据分布没有任何假定且结果可用交叉验证方法来评判的四种机器学习方法进行模型拟合及预测,并比较了决策树、bgging、随机森林、支持向量机这四种算法模型的拟合度、稳定性与预测效果。  模型结果分析  使用以上四种算法估计模型,计算出各模型的MSE和NMSE,结果见表1。  从模型的拟合度和稳定性来看,回归树和Bagging都存在明显不足,其MSE和NMSE值均大于另外两个模型,回归树模型在所有模型中拟合效果最差。而随机森林和支持向量机这两种模型的效果较好,其中随机森林的拟合度和稳定性最佳,SVM模型的拟合度较好,但模型稳定性不

8、佳。最后分别用以上算法模型对样本期外两个月的客流量进行预测,并将其与真实值对比,计算其平均误差率,结果见表2。  如表2所示,模型拟合效果较差的回归树和bagging的预测效果仍不理想,平均误差率分别达到了%和%,与真实客流量数据相比存在较大偏差。同时,拟合效果最佳的随机森林

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。