资源描述:
《基于数据挖掘的海上交通流数据特征分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第32卷第1期中国航海Vol.32No.12009年3月NAVIGATIONOFCHINAMar.2009文章编号:1000-4653(2009)01-0060-04基于数据挖掘的海上交通流数据特征分析郑滨,陈锦标,夏少生,金永兴(上海海事大学商船学院,上海200135)摘要:将基于数据挖掘的聚类分析和图形化属性分析方法引入海上交通流数据特性分析领域。阐述了数据挖掘的基本思想与方法,并着重介绍了使用开源数据挖掘工具WEKA对某海上航道的交通流数据进行的数据挖掘实验。实验综合使用聚类分析和图形化属性
2、分析两种方法得到该航道的特性信息,其结果证明利用数据挖掘方法可得到有价值的交通特性信息,并能为海上交通的有效管理提供有力的决策依据。关键词:水路运输;海上交通流;数据挖掘;聚类分析;图形化属性分析;算法中图分类号:U666.132文献标志码:AAnalysisofMarineTrafficFlowCharacteristicsBasedonDataMiningZHENGBin,CHENJin2biao,XIAShao2sheng,JINYong2xing(MerchantMarineCollege
3、,ShanghaiMaritimeUniversity,Shanghai200135,China)Abstract:Thetwodatamining2basedmachinelearningmethods,clusteringandgraphicalpropertyanalysis,arein2troducedtoanalyzecharacteristicsofvesseltrafficflowdata.Anewwayistriedtoimplementvesseltrafficdataa2nal
4、ysismakinguseofdataminingtechnique.Asimilarity2basedalgorithm,K2Means,isselectedintheclusteringprocessforitssimplicityandefficiency.ThepopulardataminingtoolWEKAischosentocarryoutexperiments,theconclusionthatclusteringisagoodwaytogeneralizemulti2factor
5、relatedregulationsisobtainedaccordingtothedataminingresults.Keywords:waterwaytransportation;marinetrafficflow;datamining;clusteringanalysis;graphicalpropertyanal2ysis;algorithm随着经济的不断发展,我国的海上交通日趋繁本文在叙述数据挖掘概念与方法的基础上,介忙,从而导致交通流量大幅度增加。在一些流量密绍了运用WEKA软件对某海
6、上航道交通流数据集集的主要航道,由于通航船舶数量多、种类杂,使得进行的数据挖掘实验。通过分析实验结果,得到有相应区域的交通特征复杂且不易识别,为海上交通价值的交通特性信息,为海上交通的有效管理提供管理和服务带来困难。决策依据。海上交通相关机构通过长时间的人工与自动数1数据挖掘据采集工作,积累了大量的交通流信息资料。应用数据挖掘技术,完全可以对交通流原始数据进行重信息爆炸是当今数字化社会面临的一个巨大挑新组织并形成知识,使之不但能够服务于现场的海战。面对通过各种手段获取的大量数据,人们迫切上交通管理
7、,同时也为决策系统提供事实依据。需要一种新的技术和工具,以便从大量的数据中智海上交通流特征分析研究的时间较长,但是大能地、自动地抽取出有价值的知识或者信息。多数研究着眼于经验分析而很少利用数据挖掘等机数据挖掘是从大量的、不完全的、有噪声的、模器学习的理论与方法。文献[1]致力于应用聚类方糊的、随机的实际数据中,提取隐含的、未知的并有法解决公路交叉点的分类及交通量预测问题。许宏潜在价值的信息的非平凡过程,其主要任务是对数科等在文献[2]中介绍了数据挖掘在公路隧道交通据库中的大量业务数据进行抽取、转换
8、、分析和模型流特征分析的应用。化处理,从中提取辅助决策的关键性数据和隐藏的收稿日期:2008211225作者简介:郑滨(1975—),男,山东青岛人,博士生,从事数据挖掘、载运工具运用工程研究。E2mail:navyboys@gmail.com.郑滨,等:基于数据挖掘的海上交通流数据特征分析61预测性信息。数据挖掘能发掘数据间潜在的模式,这样得到的原始数据集一般都会伴有数据缺失、冗找出人们可能忽略的信息,采用可理解和观察的形余,甚至含有错误数据,数据格式也不一定符合挖掘式反映给用户