基于多示例和多标记学习的文本分类技术研究

基于多示例和多标记学习的文本分类技术研究

ID:36689886

大小:6.00 MB

页数:82页

时间:2019-05-13

基于多示例和多标记学习的文本分类技术研究_第1页
基于多示例和多标记学习的文本分类技术研究_第2页
基于多示例和多标记学习的文本分类技术研究_第3页
基于多示例和多标记学习的文本分类技术研究_第4页
基于多示例和多标记学习的文本分类技术研究_第5页
资源描述:

《基于多示例和多标记学习的文本分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京大学研究生毕业论文基于多示例和多标记学习的文本分类技术研究ResearchonTextCategorizationTechniquesbasedonMulti-·InstanceandMulti--LabelLearning南京大学计算机科学与技术系孙雨音导师:周志华教授二。一一年四月南京大学研究生毕业论文随着互联网和数字媒体技术的普及,数字文本的数量迅速增加,文本分类问题受到了研究者们的广泛关注。多录例学习由于其强大的表示能力可以更好地描述文本数据。许多情况下一个文档与不止一个概念标记相关,多标记学习可以刻画这种同时具有多个

2、标记的对象。本文尝试利用新型的多示例学习和多标记学习技术辅助提高文本分类技术的性能。本文取得的创新成果主要包括:1.针对文本数据维度很高的问题,提出了一种多示例降维方法MIDR。通过设计出基于关键示例假设的多示例降维优化目标函数,以及切空间梯度下降方法,可以有效地对多示例数据进行降维。2.针对用户对文本数据进行标注时往往只给出部分标记的问题,提出了一种多标记学习方法WELL。通过设计出基于密度划分假设和显式处理标记不均衡性的优化目标函数,以及利用相似标记共享低秩基,可以有效地对标注不完整的样本进行多标记学习。上述工作均经过大量实验

3、验证,并在人工智能领域的顶级国际会议AAAIConferenceOilArtificialIntelligence’2010发表。冀翻:机器学习;文本分类;多示例学习;多标记学习;降维;弱标记学习南京大学研究生毕业论文WiththepopularityofInternetandmediatechnology,thevolumeofdigitaltext、increasesdramatically.Asa、resultresearchesontextcategorizationhaveattractedmuchattention.B

4、ecauseofitspowerfulrepresentationability,multi—instancelearningisconsideredmorepropertodescribetextdatathantraditionalsingle-instancemodel.What’Smore,consideringthatmostdocumentsarerelatedwithmorethanonetopic,multi-labellearning,whichstudiesthewholeassociatedlabelssim

5、ultaneously,iswidelyusedtoovercometheinefficacyofthetraditionalsingle-labellearning.Thisthesisfocusesonutilizingnovelmulti.instanceandmulti—labellearningtechniquetoimprovetheperformanceoftextcategorization.Indetail,maininnovativecontributionsofthisthesiscanbesummarize

6、dasfollows:1.Inordertodealwiththeproblemthattextdataalwayshavehighdimensionality,weproposeanovelmulti··instancedimensionalityreductionmethodMIDR·Wedesignanoptimizationobjectivefunctionconsideringthekeyinstanceassumptionofmulti-instancelearning,andusethegradientdecentm

7、ethodinthetangentspacetosolvethemulti-instancedimensionalityreductionproblemeffectively.2.Inordertodealwiththeproblemthatuserswillonlygivea¨partial¨setoflabelsfortextdata,weproposeamulti-labellearningmethodWELL.Wedesignanoptimizationobjectivefunctionconsideringlowdens

8、ityassumptionandclassimbalanceproblemsimultaneouslyandalsoexploitthecorrelationbetweenlabelsbyassumingthatthereisagroupoflow

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。