欢迎来到天天文库
浏览记录
ID:23622937
大小:2.97 MB
页数:78页
时间:2018-11-09
《基于深度学习的含噪声标签图像的分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于深度学习的含噪声标签图像的分类研究学科专业计算机软件与理论学号201521060209作者姓名秦晓明指导教师杨国武教授分类号密级注1UDC学位论文基于深度学习的含噪声标签图像的分类研究(题名和副题名)秦晓明(作者姓名)指导教师杨国武教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2018.03论文答辩日期2018.05学位授予单位和日期电子科技大学2018年06月答辩委员会主席评阅人注
2、1:注明《国际十进分类法UDC》的类号。ResearchonLearningFromImageDatasetWithNoisyLabelsAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaDiscipline:ComputerSoftwareandTheoryAuthor:XiaomingQinSupervisor:Prof.GuowuYangSchool:SchoolofComputerScience&Engineering摘要摘要随着人工智能的发展,图像分类技术在日常生活中逐渐扮演着重要的
3、角色,是人脸识别、目标定位、医疗诊断等领域的核心技术。然而之前进行图像分类研究时所依赖的数据全部是经过人工手动标记,这种方式不仅成本昂贵,而且耗时耗力,因而大大限制了图像分类能够发挥的潜力,因此如何在低成本的数据上训练出高精度、高鲁棒性的模型十分重要。互联网上每天都会产生海量图像数据,这些数据的获取方式简单、多样性强,往往还包含额外的语义元数据,但由于用户等因素不可避免的会包括含噪声标签的图像,因而本论文旨在研究对含噪声标签图像的分类,主要研究工作分为如下三个部分。(一)对原始数据集进行“数据提纯”,过滤出“简单”、“干净”的代表性小样本。首先设计出“正负”词-级类别特征,将原始文本进行
4、分词并表示为词向量,然后使用我们设计的混合距离相似度算法计算词向量之间的相似度,进而匹配过滤出“干净”的baseline数据集,并训练出baseline模型。(二)针对数据集设计出由简单到复杂的“课程学习”策略。使用baseline模型抽取特征,进行概率预测、PCA降维、t-SNE可视化、层级聚类分析后重新划分数据集,形成各种原始数据的子集,使用Inception-v3、Resnet-50架构迭代的进行训练,并得出最终的模型。(三)在wv-40数据集上进行实验并进行对比分析,结果显示在经过“去噪”后的最终数据集上训练的Q_10_denos模型在测试集的准确率比原始含噪声标签的数据集上训练
5、的Target模型高5.9%,从而证明了本论文算法能够学习到更好的表示且鲁棒性更好;比没有经过聚类重划分的Q_10模型高2.35%,从而验证了聚类划分能够提升模型的准确率;比先在原始Target数据集上训练,然后使用baseline数据集进行微调得到的TF_BL模型高5%,说明了本论文的算法优于前人的方法;同时为了直观的分析Q_10_denos模型的特征表达能力,本论文使用引导性后向传播对tench、bulbul、terrapin等图片进行可视化,结果表明模型很好的学习出物体的轮廓,综上都说明本论文所提出的算法对于含噪声标签图像的分类十分有效,尤其对于噪声数据比例较大时效果更为明显。关键
6、词:深度学习,图像分类,数据提纯,多视角学习IABSTRACTABSTRACTWiththedevelopmentofartificialintelligence,imageclassificationtechnologyplaysanimportantroleinthedailylife,anditisthecoretechnologyinthefieldoffacerecognition,objectlocalizationandmedicaldiagnosis.However,thedatawhichdependedontheimageclassificationresearcha
7、reallmanuallylabeled,whichisnotonlyexpensive,butalsotime-consuming,whichgreatlylimitsthepotentialofimageclassification,soitisveryimportanttotrainthehighprecisionandhighrobustnessmodelonthelow-costdata.Ontheinternetever
此文档下载收益归作者所有