欢迎来到天天文库
浏览记录
ID:50374808
大小:2.02 MB
页数:65页
时间:2020-03-05
《一种具有主次标签的多标签文本分类方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一种具有主次标签的多标签文本分类方法李晓2015年1月中图分类号:TP391UDC分类号:004.8一种具有主次标签的多标签文本分类方法作者姓名李晓学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2015年1月Multi-LabelsTextClassifierwithPrimaryandSecondaryLabelsCandidateName:LiXiaoSchoolorDepartment:ComputerScienceFacultyMentor:Prof.HuangH
2、eyanChair,ThesisCommittee:Prof.LiKanDegreeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机
3、构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着信息技术、计算机和互联网技术的飞速发展,信息资源迅速膨胀。如何有效地组织、管理和使用信息,已成为当今信息用户面临的主要问题。文本自动分类技术的发展能够提高信息的处理效率,节约人工处理时间,方便用户的使用,近年来得到了广泛的关注和快速的发展。文本自动分类是信息检索与数据挖掘研究领域的热点方向,它是机器学习和自然语言处理的关键技术之一。但各种主流的分类方法都只能为文本分配一个或多个标签类别,
4、而不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,针对文本分类自动化处理技术开展研究,主要工作包括以下几个方面:1、提出了一种基于主次标签的多标签分类方法(MLTCPSL),该方法针对具有主次标签的多标签分类问题中标签关系相互独立、主次权重有别、数量要求不一的特点,将问题分解为求解主标签的多类单标签分类和求解次标签的多类多标签分类两个问题,实现了多标签分类中主、次标签的自动识别。2、提出了一种基于基准分类器和决策门限优化方法,有效解决大规模文本数据多类分类中类别不均衡问题,提高了分类器的精度,主标签处理准确率达到90%,次标签准
5、确率达到80%。3、设计实现了MLTCPSL的自动更新方法,通过对SVM进行在线式改造,使之具备自适应更新模型能力,从而使算法具备自学习能力。关键词:文本分类;多标签;主标签;次标签;MLTCPSLI北京理工大学硕士学位论文AbstractAccompanywiththerapiddevelopmentofinformationtechnology,computerscienceandInternettechnology,informationresourcegrowsdramaticallyatthesametime.Howtoorganize,manag
6、eandusetheinformationbecomesamainissuethattheusersofinformationneedtoconcernabout.ThedevelopmentofText-automotive-classificationtechnologycanhelpuserstoimprovetheefficiencywhenhandlingtheinformation,tosavetimeofmanualworkandtohelpusersusetheinformationconveniently.Text-automotive-c
7、lassificationisahotpotamongtheresearchareaofdatasearchanddataminingnowadays,andithasgarneredalotofattentionandrapiddevelopment.Itisoneofthekeytechnologiesofmachinelearningandnaturelanguagedataprocessing.Butthemainstreamedclassifymethodscanonlylabelanarticlewithmultipleclassifylabel
8、s,whichcannotidentifythepr
此文档下载收益归作者所有