欢迎来到天天文库
浏览记录
ID:11830103
大小:661.42 KB
页数:55页
时间:2018-07-14
《基于主动学习的数据流分类器研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于主动学习的数据流分类器研究重庆大学硕士学位论文(学术学位)学生姓名:张旋指导教师:熊忠阳教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二O一三年四月ResearchonClassifiersforDataStreamsBasedonActiveLearningAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByZhangXuanSupervisedbyProf.XiongZhongyangSpecialty
2、:ComputerSystemArchitectureCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2013重庆大学硕士学位论文摘要中文摘要近年来,实时监控系统、物联网、Internet传输信息等环境产生了大量数据流,这类数据具有快速到达、海量潜在无限和概念漂移的特点。这些特点使得无法使用传统的数据分类方法进行分类,需要新的适用于数据流的分类方法。此外,在真实的数据流环境中,大量实例快速到达,而对实例进行标记是需要时间和成本的,这就使得及时获得充足的标记数据是不现实的,此时如果用监督学习的方
3、法训练分类器将产生弱分类器。另外在真实环境中,有许多应用需要快速地对大规模的数据进行分类,而单机的分类器不能满足此时的分类需求。针对真实数据流环境中上述两方面问题,本文提出了一种新颖的基于主动学习的数据流分类器,来解决标记数据不足而可能导致弱分类器的问题;并且基于免费、开源、分布式的实时计算系统Storm,提出一种可以快速地对大规模数据进行分类的数据流分类器。本文的主要工作与研究成果如下:第一,研究了数据流分类相关的技术。首先介绍了数据挖掘的概念、过程以及功能。然后介绍了分类的概念、一般过程以及经典的分类算法。接着介绍了数据流的定义和特征,数据流的处理模型和常见的处理方法。最后介绍了
4、数据流分类的一般过程、一些著名的数据流分类算法以及数据流分类器的评估标准。第二,提出了一种新颖的基于主动学习的分类器DCA。针对标记数据不足而可能导致弱分类器的问题,DCA在集成分类器之上用主动学习的方法,只提交小部分实例给专家进行人工标记。选择的方法是依据分类时该实例的分类置信度,集成分类器对此实例的分类意见越统一,分类置信度越高,反之则越小。认为分类置信度高的实例的预测类别很可能就是它的真实类别,而分类置信度低的实例的预测类别很可能不是真实类别,只需将分类置信度低的实例提交专家。通过时间分析,证实了DCA的有效性,并通过在仿真数据集和真实数据集上的实验,验证了DCA的正确性。第三
5、,提出了基于Storm的分类器RCL。真实数据流分类环境许多应用需要快速地分类大规模数据。自行设计一个分布式的分类器不仅困难而且没有必要,基于Hadoop的方案是可行的但不是最佳的,经过调研最终选择了基于Storm的设计方案。Storm是一个免费、开源、分布式的实时计算系统。RCL将DCA运用于Storm上将得到一个可以快速处理大规模流数据的分类器。通过在仿真数据集和真实数据集上进行实验,计算RCL分类器的加速比、并行效率和平均分类器精度,证明了RCL分类器的有效性和正确性。关键词:数据流,分类,概念漂移,主动学习,StormI重庆大学硕士学位论文英文摘要ABSTRACTInrec
6、entyears,hugevolumesofstreamingdataisproducedintheenvironmentlikeRSCS(RealSupervisoryControlSystem),theInternetofThingsandInternetInformationTransmissionandsoon.Thiskindofdatahasthecharacteristicsofarrivingrapidly,potentiallyinfiniteandconcept-drifting,whichmakethetraditionalclassificationmetho
7、dinvalidandnewclassificationmethodiswanted.Inaddition,inrealdatastreamenvironmentlarge-scaleinstancesarriveinahighspeed.Soit'simpracticaltogetenoughlabelleddataintimebecauselabelinginstancesisbothcostlyandtimeconsuming.Alimitedamo
此文档下载收益归作者所有