欢迎来到天天文库
浏览记录
ID:35182155
大小:5.19 MB
页数:136页
时间:2019-03-21
《带标签和或无标签数据综合利用的模式分类新方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、?分类号密级博±学位论文题目:带标签和/或无标签数据综合利用的模式分类新方法研究英文并列题目:AStudyonClassificationMethodBasedonInteratedgUtilizationof出eLabeledand/or化eUnlabeledData■硏究生:董爱美专业:耗下信息巧术与T括:模式识别与人工智能研究方向导师:王±同指导小組成员:学位授予日期;答辩委员会主席:去A聲江南大学地址:无锡市蠢湖大道1如0号—?二〇六年六月
2、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研巧工作及取得的研巧成果。尽我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研巧成果,也不包含本人为获得江南大学或其它教育机构的学位或证书而使用过的一材料。与我同工作的同志对本研宛所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名b月<吨:曰期年关于论文使用授权的说明本学位论文作者完全了解江南大学有关保留、使用学位论文的规定:江南大学有权保留并向国家有关部口或机构送交论文的复印件和磁入盘有关,允数许据论库文进被査阅和借阅,可
3、W将学位论文的全部或部分内容编r编学位论文巧检索,可采用影印、缩印或扫描等复制手段保存、保密,并且本人电子文档的内容和纸质论文的内容相一致。的学位论文在解密后也递守此规"定。签名:导师签名:/nj日期:心年t月fV日摘要摘要模式分类是机器学习的一个重要研究分支。传统模式分类包括监督分类和无监督分类两种方法,其训练数据集要么是带标签数据,要么是无标签数据。随着新应用的不断出现,训练数据集中同时包含带标签数据和无标签数据,无标签数据数量非常多且获得新的无标签数据非常容易代价低廉,而带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵;并
4、且还出现了一种新现象,无标签数据和带标签数据来自不同但相关的领域。针对该现象,本文以最小包含球、核向量机、特征扩维和共享隐空间等理论为指导思想,结合支持向量机,针对监督分类、半监督分类和迁移分类三种不同研究场景,提出了几种带标签和/或无标签数据综合利用的模式分类新方法,主要研究成果如下:1)针对监督分类场景,将以稀有带标签数据为训练数据的分类问题应用到推荐系统中,提出了针对异质空间大数据相似性问题的推荐算法及其快速算法,算法本质上是基于监督分类模型的个性化推荐算法。具体来说,该算法将传统推荐方法和最小包含球、核向量机等理论相结合,以支持向量机理论为基础,将传统推荐
5、方法转化为中心约束的最小包含球问题,从而使其具备大样本快速处理能力。实验中将所提方法应用到电影推荐系统中,验证了所提方法的有效性。2)针对半监督分类场景,从传统半监督分类自标记过程中由于带标签数据标签受到攻击产生误标而扩大类标签错误着手,以支持向量机为分类模型,从数据特征角度提出了一种基于特征扩展的半监督支持向量机分类算法。该方法首先以带标签数据和无标签数据间概率分布积分均方误差最小为原则,通过一个行正交变换将数据原始特征进行扩展;然后以分类器最大间隔原理为指导,在扩展的特征空间中对带标签数据进行训练得到最终模式分类器。相关实验结果验证了所提半监督模式分类器的有效
6、性。3)针对半监督分类场景,以基于特征扩展的半监督支持向量机分类算法为基础,在运行时间和安全使用无标签数据方面对其进行改进,提出了一种基于过取样技术和共享隐空间理论的半监督分类方法。该方法首先使用过取样技术以带标签数据和无标签数据为基础生成新的带标签的合成数据;然后以原始带标签数据和合成数据间概率分布积分均方误差最小为原则,寻找原始带标签数据和合成数据间的共享隐空间;最后在原始特征空间和共享隐空间组成的扩展空间中对原始带标签数据进行训练得到最终模式分类器。相关实验结果验证了所提半监督模式分类器的有效性。I摘要4)针对迁移分类场景,为充分挖掘不同但相关领域间的共性“
7、知识”,从特征变换角度出发提出了一种新的基于特征的迁移分类方法。该方法充分考虑领域原始特征空间和领域间共享低维隐空间的约束,具体来说:首先引入一个特征变换参数矩阵作为领域间的共享隐变量,通过该共享隐变量将源域和目标域数据映射到一个公共的低维子特征空间上;进一步地,基于原始特征空间和公共低维子特征隐空间构造联合决策函数,把领域原始特征空间和领域间公共低维子特征隐空间同时嵌入到支持向量机的训练中,从而学习到一个在目标域中泛化性能更好的分类器。相关实验结果验证了所提迁移分类方法的有效性。5)针对迁移分类场景,为充分挖掘不同但相关领域间的共性“知识”,避免“负迁移”现象发
8、生,从训练
此文档下载收益归作者所有