欢迎来到天天文库
浏览记录
ID:50145584
大小:5.88 MB
页数:122页
时间:2020-03-06
《特征构建算法及其在图像语义标注与信息抽取中的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京理工大学特征构建算法及其在图像语义标注与信息抽取中的应用研究姜子恒2015年4月中图分类号:TP391.41UDC分类号:540特征构建算法及其在图像语义标注与信息抽取中的应用研究作者姓名姜子恒学院名称计算机学院指导教师郭平教授答辩委员会主席胡占义研究员申请学位工学博士学科专业计算机软件与理论学位授予单位北京理工大学论文答辩日期2015年6月9日AstudyonfeaturedesignalgorithmswithapplicationtoimageannotationandinformationextractionCandidateName:JiangZihengSch
2、oolorDepartment:ScoolofComputerScienceFacultyMentor:Prof.GuoPingChair,ThesisCommittee:Prof.HuZhanyiDegreeApplied:DoctorofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:June9th,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别
3、标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学博士学位论文摘要随着互联网和多媒体技术的不断发展,图像与文本已经成为不可或缺的信息载体。每天互联网上都会产生海量的图像与文本数据,如何对它们进行有效地管理成为了人们迫切需要解决的问题。面对海量的数据,传统的人工标注的管理方式不仅耗时而且耗力。于是,本文针对目前存在于图像和文本内容理解中的问题,提出了若干机器学习的算法,
4、旨在能让计算机更加智能化的自动进行图像和文本数据的管理。本文中所指的图像内容理解主要指的图像分类和图像语义自动标注技术,文本内容理解是指文本的信息抽取技术。事实上,无论是图像语义分析还是文本信息抽取,最终都可以建模为模式识别的问题。图像和文本只是信息的传播媒介,而对机器而言,低层特征才是它能理解的语言。换言之,本文始终围绕着的一个中心思想就是如何利用机器学习算法更好地构建低层特征到高层语义之间的映射关系。以此为中心,本文的主要研究内容包括:1.提出了一种多尺度融合的低层特征构造方法。算法首先基于传统的BOW(Bag-of-words)模型通过对不同尺度下的图像进行稠密采样获取
5、视觉词,然后通过pLSA(probabilisticLatentSemanticAnalysis)算法获取不同尺度的图像的主题模型,接着采用简单的级联操作将特征拼接起来作为图像的特征表示。在实验中,通过与在单一尺度下进行特征提取的算法进行对比,证明了本方法的有效性。2.提出一种优化SVM(SupportVectorMachine)训练数据集的方法。当我们对训练图像进行稠密采样及特征提取后,将会产生许多训练样本。实际上,每幅图像都包含了很多重复的特征点以及一部分离群点(outliers),其中包含了冗余和噪音信息。因此,如果用所有的特征点对SVM分类器进行训练的话,将会非常耗时
6、甚至可能影响到分类精度。相反地,如果我们从这些海量数据中挑选出一部分代表点作为SVM的训练样本,则不仅会加速训练过程,而且有可能提升分类精度。基于此,我们首先使用LVQ(LearningVectorQuantization)对训练数据进行约简,然后再通过SVM进行图像语义标注。实验发现基于AP(AffinityPropagation)算法的LVQ比基于SOM(Self-OrganizingMap)网络的LVQ无论在时间开销还是在样本点选取的有效性方面都更胜一筹。3.提出一种全新的基于低秩和局部编码的图像分类算法Locality-constrainedI北京理工大学博士学位论文
7、Low-rankCoding,缩写为LCLR。LCLR通过联合编码和局部约束,很好地把握了流形特征空间的特点。相比于其他的基于低秩编码的策略,LCLR没有选择ℓ1范数作为正则项,而是选择了效果更好的局部约束项。大量的实验也验证了LCLR算法的有效性。同时,为了解决该算法在优化时遇到的问题,我们也提出了一种基于在线学习的优化策略。实验证明,LCLR算法在很多标准数据集上的效果达到了世界一流水平。4.提出了一种无监督的,对搜索日志进行自动挖掘可比较实体对的抽取算法。算法通过对包含10亿条英文搜索词条的搜索日
此文档下载收益归作者所有