半监督聚类与分类算法研究

半监督聚类与分类算法研究

ID:34013736

大小:2.94 MB

页数:124页

时间:2019-03-03

半监督聚类与分类算法研究_第1页
半监督聚类与分类算法研究_第2页
半监督聚类与分类算法研究_第3页
半监督聚类与分类算法研究_第4页
半监督聚类与分类算法研究_第5页
资源描述:

《半监督聚类与分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号学号D201077542学校代码10487密级博士学位论文半监督聚类与分类算法研究学位申请人:甘海涛学科专业:控制科学与工程指导教师:桑农教授答辩日期:2014年5月万方数据AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofDoctorofPhilosophyinEngineeringResearchonsemi-supervisedclusteringandclassificationalgorithmPh.D.Candidate

2、:GanHaitaoMajor:ControlScienceandEngineeringSupervisor:Prof.SangNongHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaMay,2014万方数据独创性声明本人声明所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知,除文中已标明引用的内容外,本论文不包含任何其他人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人

3、完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本授权书。本论文属于不保密□。√(请在以上方框内打“”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日万方数据华中科技大学博士

4、学位论文摘要机器学习是人工智能的重要研究课题之一,已广泛应用于自然语言处理、生物特征识别、计算机视觉和手写数字识别等领域。传统的机器学习包括有监督和无监督两种学习方式。监督学习需要大量的标记样本以学习一个好的分类器,并利用该分类器对未见样本进行类别判断和预测。但是当标记样本较少时,所获得分类器的泛化能力往往较差,而且样本的标记过程既耗时又费力。而无监督学习由于没有标记样本导致了学习过程的盲目性,可能无法取得理想的结果。因此,如何充分利用少量的标记样本和大量的未标记样本获得较好的学习器,即半监督学习,己成为机器学习中最

5、受关注的方向之一。半监督学习包含半监督聚类、半监督分类和半监督回归三种学习方式,本文在分析了半监督学习算法的研究现状及存在问题的基础上,对半监督聚类和分类算法进行了研究。首先,将流形假设引入到半监督聚类算法中,提出了一种基于流形结构的半监督混合高斯模型,该算法依据标记和未标记样本的局部一致性,利用Kullback-Leibler散度构建?近邻图以挖掘出样本的内在流形结构,并将流形结构以图正则化的形式与先验信息分别加入到混合高斯模型的目标函数中,最后通过EM算法求解获得最优参数。在仿真和实际数据上的实验结果表明了本算法

6、的有效性,同时在图像分割上的实验进一步说明了本算法具有一定的实用性。其次,考虑到核最小平方误差算法的性能严重依赖于标记样本的数量,因此本文将流形假设应用于该算法中,提出了一种基于拉普拉斯正则化的半监督核最小平方误差算法。通过构造?近邻图挖掘出标记和未标记样本的内在流形结构,并采用图拉普拉斯算子构建流形正则项,嵌入到核最小平方误差算法的目标函数中,从而实现半监督分类算法。在标准数据集和人脸识别上的实验结果表明本算法能有效地处理标记样本较少的问题,同时获得一个较好的分类器。然后,提出了一种基于聚类分析的自训练分类算法,该

7、算法将聚类算法嵌入到自训练分类算法中,其基本思想是利用半监督聚类算法尽量挖掘出标记和未标记样本的结构信息,并结合所得到的结构信息预选择出高置信度样本,然后用判别式分I万方数据华中科技大学博士学位论文类器从预选择样本集中选择高置信度样本。相比于自训练分类算法,本算法一定程度上弥补了仅用标记样本带来的信息不足。仿真实验表明,当标记样本覆盖的空间与真实数据空间不一致时,本算法能获得较好的泛化能力。实际数据的实验结果更进一步说明了本算法的有效性和鲁棒性。最后,提出了一种基于半监督降维技术和仿射传播算法的自训练分类算法,该算法

8、将降维方法嵌入到自训练分类算法中,采用半监督降维技术能有效地解决标记样本较少情况下数据的维数灾难问题,同时相比于选择均值模板或者?均值聚类算法得到的模板,利用仿射传播算法选择得到的代表性样本是真实存在而不是虚构的,作为最近邻分类器的模板能更好地处理非高斯分布的数据。本文将该算法应用于人脸识别中,实验结果表明该算法具有较好的高维数据处理能力和较高

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。