欢迎来到天天文库
浏览记录
ID:35061906
大小:5.98 MB
页数:70页
时间:2019-03-17
《基于半监督的svm迁移学习文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、广东工业大学硕±学位论文(王学硕±)基于半监督的SVM迂移学习文本分类方法谭建平二〇—六年五月11845分类号:;学校代号抓C:密级:学号:2111304091广东工业大学硕±学位论文(工学硕±)基于半监督的SVM迂移学习文本分类方法谭建平指导教师姓名、职称;刘波教授学科(专业)或领域名称:控制科学与工程学生所属学院:自动化学院论文答辩日期;2016年05月31日ADissertationSubmittedtoGuangdongUniversityofTe
2、chnologyfortheDereeofMastergMasterofEnineerinScience(gg)Sem--isupervisedSVMBasedTransferLearningforTextCiitilassfcaonCandidate;TanJianinpgrSuevsor:Pro.pifLiuBoMay20化SchoolofAutomationGuandonUniversitofTechnologgygyGuanzhouGuando
3、nP.R.China510006g,gg,,摘要摘要随着互联网的快速发展,各种信息风靡网络,而这些网络信息主要通过文本的形式来表法,因此对文本数据进行合理有效的处理是十分必要的。文本分类是进行一信息挖掘的种重要数据分析方法,它能够从数据中挖掘关键信息并构建模型,使计算机从过去的数据中获取知识,解决问题。传统的文本分类方法在要求有充足标注数据训练模型的同时还要求训练数据一一。与测试数据属于同分布支持向量机(SVM)作为常用文本分类方法之,特别适合处理像文本这样的数据集较大的分类问题。然而,SV
4、M在处理分类问题时也常会因为训练样本不充分而无法学习到高精度的分类模型。近年来,在SVM算法中一引入半监督学习模式,利用大量未标注数据与少量标注数据共同训练分类器,在定程度上解决了训练数据不充分的问题,但半监督学习仍需满足训练数据与测试数据同分布假设一。迁移学习是最近兴起的种有效解决上述问题的学习方式,其可W利用相似领域中大量标注数据来帮助新领域目标任务的学习。于是在SVM中引入。迁移学习,在提供大量标注数据的同时还放宽了对数据分布的要求本文通过结合迁移学习和半监督学习来研究文本分类问题,主要研究内容如下;
5、(1)针对传统有监督SVM文本分类方法的不足,详细描述了半监督式的自训练SVM分类方法,包括其基本思想、具体流程W及存在的缺陷。(2)针对W往SVM迁移学习方法在训练过程中大量迂移与目标数据很不相似的源领域数据的问题一,提出了种利用源域支持向量进行相似迂移的方法。该方法先利用源领域训练得到的支持向量代表源领域数据,再利用源域支持向量与目标训。练集的相似度来衡量源域数据的重要性,进而有效的对源领域知识进行迁移(3)考虑到未标注数据可能包含有对分类起重要作用的信息,提出了结合目标领域未标注数据共同学习分类模型的
6、基于半监督的SVM迁移学习分类方法。该方法WSVM迁移模型为基础分类器,给未标注数据带上初始标签并共同学习分类模型一,进步提高了分类器性能。将本文提出的SVM迁移学习方法W及基于半监督的SVM迂移学习方法与传统I广东工业大学硕壬论文的SVM方法在20Newsgroups数据集上进行实验对比,证明了本文提出方法的有效性。然后与传统的文本分类方法进行比较,证明了本文方法的可行性与优越性。关键词:迁移学习;半监督学习;SVM;文本分类IIABSTRACTABSTRACTWithther
7、apiddevelopme打tofInternet,thereareallkindsofinformatio打inthe,network,andtheyaremainlyexpressedthroughthe化对.Soitsnecessarytodealwiththetextdatareasonableefectivel.Textclassificatio打isanimportantdataanalsisyymethodfbrinformationsc
8、ienceitcanminethekeyinformationfromthedatatobuilda,modelandacuiresknowledefrom
此文档下载收益归作者所有