欢迎来到天天文库
浏览记录
ID:36689886
大小:6.00 MB
页数:82页
时间:2019-05-13
《基于多示例和多标记学习的文本分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京大学研究生毕业论文基于多示例和多标记学习的文本分类技术研究ResearchonTextCategorizationTechniquesbasedonMulti-·InstanceandMulti--LabelLearning南京大学计算机科学与技术系孙雨音导师:周志华教授二。一一年四月南京大学研究生毕业论文随着互联网和数字媒体技术的普及,数字文本的数量迅速增加,文本分类问题受到了研究者们的广泛关注。多录例学习由于其强大的表示能力可以更好地描述文本数据。许多情况下一个文档与不止一个概念标记相关,多标记学习可以刻画这种同时具有多个
2、标记的对象。本文尝试利用新型的多示例学习和多标记学习技术辅助提高文本分类技术的性能。本文取得的创新成果主要包括:1.针对文本数据维度很高的问题,提出了一种多示例降维方法MIDR。通过设计出基于关键示例假设的多示例降维优化目标函数,以及切空间梯度下降方法,可以有效地对多示例数据进行降维。2.针对用户对文本数据进行标注时往往只给出部分标记的问题,提出了一种多标记学习方法WELL。通过设计出基于密度划分假设和显式处理标记不均衡性的优化目标函数,以及利用相似标记共享低秩基,可以有效地对标注不完整的样本进行多标记学习。上述工作均经过大量实验
3、验证,并在人工智能领域的顶级国际会议AAAIConferenceOilArtificialIntelligence’2010发表。冀翻:机器学习;文本分类;多示例学习;多标记学习;降维;弱标记学习南京大学研究生毕业论文WiththepopularityofInternetandmediatechnology,thevolumeofdigitaltext、increasesdramatically.Asa、resultresearchesontextcategorizationhaveattractedmuchattention.B
4、ecauseofitspowerfulrepresentationability,multi—instancelearningisconsideredmorepropertodescribetextdatathantraditionalsingle-instancemodel.What’Smore,consideringthatmostdocumentsarerelatedwithmorethanonetopic,multi-labellearning,whichstudiesthewholeassociatedlabelssim
5、ultaneously,iswidelyusedtoovercometheinefficacyofthetraditionalsingle-labellearning.Thisthesisfocusesonutilizingnovelmulti.instanceandmulti—labellearningtechniquetoimprovetheperformanceoftextcategorization.Indetail,maininnovativecontributionsofthisthesiscanbesummarize
6、dasfollows:1.Inordertodealwiththeproblemthattextdataalwayshavehighdimensionality,weproposeanovelmulti··instancedimensionalityreductionmethodMIDR·Wedesignanoptimizationobjectivefunctionconsideringthekeyinstanceassumptionofmulti-instancelearning,andusethegradientdecentm
7、ethodinthetangentspacetosolvethemulti-instancedimensionalityreductionproblemeffectively.2.Inordertodealwiththeproblemthatuserswillonlygivea¨partial¨setoflabelsfortextdata,weproposeamulti-labellearningmethodWELL.Wedesignanoptimizationobjectivefunctionconsideringlowdens
8、ityassumptionandclassimbalanceproblemsimultaneouslyandalsoexploitthecorrelationbetweenlabelsbyassumingthatthereisagroupoflow
此文档下载收益归作者所有