欢迎来到天天文库
浏览记录
ID:52476267
大小:934.46 KB
页数:3页
时间:2020-03-28
《几种不同的方法在GPS大数据探查中的应用分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、学术探讨∙应用技术与研究几种不同的方法在GPS大数据探查中的应用分析刘鑫张驰刘汝涛(山东科技大学测绘科学与工程学院,山东青岛266590)[摘要]GPS定位系统对车辆的运行调控以及拥堵性分析具有重要意义。但定时采样的GPS数据难免存在坏点的情况,而坏点的存在对分析结果容易产生较大错误,从而影响交通管理决策。本文通过高斯混合模型、K-均值聚类分析以及SOM自组织神经网络三种方法完成对原始数据时间段划分、字段提取以及坏值清理的操作。这三种方法主要用于对数据进行聚类分析,根据分析结果识别孤立点从而进行清理。结果显示,高斯聚类与K-均值聚类算
2、法的坏点识别精度小于SOM自组织神经网络,但前两种算法的运行效率较后者高。[关键字]坏点;GPS;模型处理;神经网络中图分类号:TP311.13文献标识码:A文章编号:1008-6609(2016)08-0074-03的影响,采集到的数据难免存在一定的问题,即坏点的存在,1引言因此,必须对采集到的原始数据进行预处理工作,从而保障数城市公共交通服务评价是城市公共交通系统建设的重据的完整和准确。要组成部分,是公交运营效率提升的重要内容。在我国城市对数据的预处理主要包括三个方面,分别为选择分析时化进程带来的诸多问题中,交通是是影响最大,同时
3、也是最段,数据字段选择以及错误数据清理。本文对数据预处理选受重视的一个方面,这是由于城市的经济、生活等各个方面择不同的方法主要集中在第三步错误数据清理上,对于前两都与交通息息相关。而目前我国一些城市的交通拥堵现象步方法并未有太大变化,仅依靠时间段对数据进行时段划分相当严重。目前我国除北京、上海、深圳等特大城市外,交通以及选取相应的数据字段即可,本文主要讲述第三步的处拥堵现象已比较频繁地出现于其他一些大中城市,而拥堵现理。象并不仅仅体现在交叉口等节点处,城市大面积的拥堵现象受设备以及传输条件的限制,所采集的数据源通常会产也时有发生,道路
4、容量已经趋于饱和。据有关资料显示,每生错误数据,对于数据字段中的错误数据进行清理或者修正,年我国因交通问题造成的损失高达数千亿元。对于运输企从而保证数据挖掘的质量。本文给出错误数据清理的三种业,管理和规划部门,传统的公交车站,线路和换乘枢纽的规模型,分别为高斯混合模型、SOM自组织神经网络模型,以划数据只是根据主管部门收集的统计资料和人工库存,而在及K均值聚类模型。模型具体介绍及优缺点分析如下。自动采集技术日益发达的今天,如果能够自动分析居民出行3具体方法简述需求,利用公交系统数据、公交卡消费数据、地铁卡消费数据3.1高斯混合模型和出
5、租车定位数据,对现有的公交规划设施服务(包括常规3.1.1算法原理公交车站和地铁站)进行动态评价,可以显著提高传统公交高斯混合模型通俗来讲,就是用高斯密度函数来对数据规划、设计和管理的工作效率和质量。进行量化表示,从而将一群杂乱无章的数据描述为一个基于2数据的预处理概率密度函数形成的模型。由于IC卡数据和GPS定位信息在进行数据采集时,受从数学上讲,我们认为这些数据的概率分布密度函数可到设备技术条件(主要是仪器系统误差造成)以及传输条件以通过加权函数表示:——————————————作者简介:刘鑫,男,山东烟台人,本科,研究方向:地理
6、信息系统开发等研究。-74-学术探讨∙应用技术与研究MMW*(t+1)=Wj*(t)+△W*=Wj*(t)+α(X-Wj*)p(xi)=∑ajNj(Xi;μj;Cj),∑aj=1(1)jj(9)j=1j=1Wj(t+1)=Wj(t)其中其中0α1为学习效率,α在此处训练取为0.1,其值N(x;μ;C)=1exp[-1(X-μ)TC-1(x-μ)](2)jjjn2jjj随着学习的进展而减小,即调整的程度越来越小,趋向于聚(2π)
7、Cj
8、类中心。表示第j个单高斯模型SGM的概率密度函数。3.3K-均值聚类令φj=(aj,μj,Cj),
9、高斯混合模型GMM共有M个SGM,现3.3.1算法原理在,我们就需要通过样本集X来估计GMM的所有参数:TK均值聚类算法的原理是首先对输入数据根据位置参ϕ=(φ1,⋯,φM),样本X的概率公式为:NM数随机生成聚集中心,然后计算各数据点与聚集中心的距P(X
10、ϕ)=∏∑ajNj(Xi;μj,Cj)(3)i=1j=1离,根据最近邻原则进行该数据点的属性划分,依次进行直3.1.2算法的求解到所有数据点均存在唯一的类属关系。在完成初始类属划第一步:协方差矩阵Cj0设为单位矩阵,每个模型比例的分后,各聚集中心又重新进行计算,即二次迭代运算过程,
11、直先验概率aj0=1/M;均值μj0设为随机数。到达到预先设定的终止条件才完成迭代过程,本文给定的终第二步:估计步骤(E-step)止条件是所有数据点均无类属关系的变动,即聚集中心再无令aj0的后验概率为变化,误差平方和
此文档下载收益归作者所有