欢迎来到天天文库
浏览记录
ID:35055497
大小:6.55 MB
页数:72页
时间:2019-03-17
《基于dbscan聚类算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级硕士学位论文题目:基于DBSCAN聚类算法的研究与应用英文并列题目:ResearchandApplicationofClusteringAlgorithmbasedonDBSCAN研究生:冯振华专业:软件工程研究方向:软件工程技术导师:钱雪忠指导小组成员:学位授予日期:2016年6月答辩委员会主席:吴小俊江南大学地址:无锡市蠡湖大道1800号二○一六年六月摘要摘要随着移动互联网和移动终端设备在世界范围内的迅速发展与广泛普及,越来越多的传统行业受到了前所未有的挑战,尤其是近年来大数据时代的不断深入,各行业更加注重数
2、据挖掘技术在其信息系统建设中的重要性。聚类分析作为数据挖掘领域的重要研究方向之一,目前已被广泛应用于数据分析、图像处理、机器学习等领域。其中,基于密度的聚类算法不需要预先指定聚类簇数,而且可以在含有噪声数据的数据集中识别任意数量和形状的聚类,DBSCAN作为基于密度算法的经典代表,在聚类分析中得到越来越多的应用。本文通过对DBSCAN聚类算法的研究,并针对现阶段城市出租车分布不合理、调度效率低下的问题,基于出租车载客热点数据分布不均匀、数据量庞大的自身特点,提出了一种可以满足出租车载客热点挖掘的多密度聚类DBSCAN改进算
3、法;结合移动平台下的地图服务,设计并实现了基于移动终端的出租车载客热点挖掘系统,用以指导城市出租车的分布与调度。本文的主要研究工作如下:首先,针对基于密度的DBSCAN算法对于输入参数敏感、无法聚类多密度数据集的问题,提出了一种贪心的DBSCAN改进算法(GreedyDBSCAN)。算法仅需输入一个参数MinPts,采用贪心策略自适应地寻找Eps半径参数进行簇发现,利用相对稠密度识别和判定噪声数据,在随机寻找核对象过程中使用邻域查询方式提升算法效率,最终通过簇的合并产生最终的聚类结果。实验结果表明改进后的算法能有效地分离噪
4、声数据,识别多密度簇,聚类准确度较高。其次,为了进一步提升GreedyDBSCAN算法处理大规模数据集的聚类效率,提出了基于蓄水池抽样的GreedyDBSCAN算法,利用统计最优样本大小确定抽样率,仿真实验结果表明算法可适应大规模、形状不规则的多密度聚类;并通过WEKA数据挖掘工具对出租车原始GPS数据进行预处理,提取有效的载客热点数据,将基于蓄水池抽样的GreedyDBSCAN算法对北京市12000台出租车5天原始GPS数据进行实验,以此验证所提算法在发现和预测出租车载客热点区域应用中的有效性。最后,系统设计中采用MVC
5、分层架构模式及当下流行的REST风格架构的资源设计模板,使用SpringMVC+Spring+Hibernate轻量级开发框架实现系统的服务器部分,利用Bootstrap响应式前端框架实现系统的Web前端;在系统实际应用中,针对出租车载客热点数据在工作日与节假日不同时段的分布特征,适当的调整MinPts参数以达到细粒度聚类,聚类结果以标记形式展示在移动终端地图上,引导出租车司机载客。最终通过系统测试运行,验证了文中相关算法与技术在出租车载客热点挖掘应用中的有效性。关键词:多密度聚类;GreedyDBSCAN;蓄水池抽样;出
6、租车载客热点IAbstractAbstractWiththerapiddevelopmentandwidespreadingofmobileInternetandmobiledevicesonaglobalscale,moreandmoretraditionalindustrieshavebeenfacingunprecedentedchallenges.Especiallyinrecentyearswhentheeraofbigdataisconstantlydeepened,variousindustrieshavep
7、aidmoreattentiontotheimportanceofdataminingtechnologyininformationsystemconstruction.Clusteranalysisasoneoftheimportantresearchdirectionsinthefieldofdatamininghasbeenwidelyusedindataanalysis,imageprocessing,machinelearning,etc.Whereindensity-basedclusteringalgorit
8、hmsdonotentailapre-specifiednumberofclusters,andcanidentifyclustersofanynumberandshapeindatasetswithnoise,whileDensity-basedspatialclusteringofapplicati
此文档下载收益归作者所有