基于半监督的svm迁移学习文本分类方法

基于半监督的svm迁移学习文本分类方法

ID:35061906

大小:5.98 MB

页数:70页

时间:2019-03-17

基于半监督的svm迁移学习文本分类方法_第1页
基于半监督的svm迁移学习文本分类方法_第2页
基于半监督的svm迁移学习文本分类方法_第3页
基于半监督的svm迁移学习文本分类方法_第4页
基于半监督的svm迁移学习文本分类方法_第5页
资源描述:

《基于半监督的svm迁移学习文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广东工业大学硕±学位论文(王学硕±)基于半监督的SVM迂移学习文本分类方法谭建平二〇—六年五月11845分类号:;学校代号抓C:密级:学号:2111304091广东工业大学硕±学位论文(工学硕±)基于半监督的SVM迂移学习文本分类方法谭建平指导教师姓名、职称;刘波教授学科(专业)或领域名称:控制科学与工程学生所属学院:自动化学院论文答辩日期;2016年05月31日ADissertationSubmittedtoGuangdongUniversityofTe

2、chnologyfortheDereeofMastergMasterofEnineerinScience(gg)Sem--isupervisedSVMBasedTransferLearningforTextCiitilassfcaonCandidate;TanJianinpgrSuevsor:Pro.pifLiuBoMay20化SchoolofAutomationGuandonUniversitofTechnologgygyGuanzhouGuando

3、nP.R.China510006g,gg,,摘要摘要随着互联网的快速发展,各种信息风靡网络,而这些网络信息主要通过文本的形式来表法,因此对文本数据进行合理有效的处理是十分必要的。文本分类是进行一信息挖掘的种重要数据分析方法,它能够从数据中挖掘关键信息并构建模型,使计算机从过去的数据中获取知识,解决问题。传统的文本分类方法在要求有充足标注数据训练模型的同时还要求训练数据一一。与测试数据属于同分布支持向量机(SVM)作为常用文本分类方法之,特别适合处理像文本这样的数据集较大的分类问题。然而,SV

4、M在处理分类问题时也常会因为训练样本不充分而无法学习到高精度的分类模型。近年来,在SVM算法中一引入半监督学习模式,利用大量未标注数据与少量标注数据共同训练分类器,在定程度上解决了训练数据不充分的问题,但半监督学习仍需满足训练数据与测试数据同分布假设一。迁移学习是最近兴起的种有效解决上述问题的学习方式,其可W利用相似领域中大量标注数据来帮助新领域目标任务的学习。于是在SVM中引入。迁移学习,在提供大量标注数据的同时还放宽了对数据分布的要求本文通过结合迁移学习和半监督学习来研究文本分类问题,主要研究内容如下;

5、(1)针对传统有监督SVM文本分类方法的不足,详细描述了半监督式的自训练SVM分类方法,包括其基本思想、具体流程W及存在的缺陷。(2)针对W往SVM迁移学习方法在训练过程中大量迂移与目标数据很不相似的源领域数据的问题一,提出了种利用源域支持向量进行相似迂移的方法。该方法先利用源领域训练得到的支持向量代表源领域数据,再利用源域支持向量与目标训。练集的相似度来衡量源域数据的重要性,进而有效的对源领域知识进行迁移(3)考虑到未标注数据可能包含有对分类起重要作用的信息,提出了结合目标领域未标注数据共同学习分类模型的

6、基于半监督的SVM迁移学习分类方法。该方法WSVM迁移模型为基础分类器,给未标注数据带上初始标签并共同学习分类模型一,进步提高了分类器性能。将本文提出的SVM迁移学习方法W及基于半监督的SVM迂移学习方法与传统I广东工业大学硕壬论文的SVM方法在20Newsgroups数据集上进行实验对比,证明了本文提出方法的有效性。然后与传统的文本分类方法进行比较,证明了本文方法的可行性与优越性。关键词:迁移学习;半监督学习;SVM;文本分类IIABSTRACTABSTRACTWithther

7、apiddevelopme打tofInternet,thereareallkindsofinformatio打inthe,network,andtheyaremainlyexpressedthroughthe化对.Soitsnecessarytodealwiththetextdatareasonableefectivel.Textclassificatio打isanimportantdataanalsisyymethodfbrinformationsc

8、ienceitcanminethekeyinformationfromthedatatobuilda,modelandacuiresknowledefrom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。