一种具有主次标签的多标签文本分类方法.pdf

一种具有主次标签的多标签文本分类方法.pdf

ID:50374808

大小:2.02 MB

页数:65页

时间:2020-03-05

一种具有主次标签的多标签文本分类方法.pdf_第1页
一种具有主次标签的多标签文本分类方法.pdf_第2页
一种具有主次标签的多标签文本分类方法.pdf_第3页
一种具有主次标签的多标签文本分类方法.pdf_第4页
一种具有主次标签的多标签文本分类方法.pdf_第5页
资源描述:

《一种具有主次标签的多标签文本分类方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一种具有主次标签的多标签文本分类方法李晓2015年1月中图分类号:TP391UDC分类号:004.8一种具有主次标签的多标签文本分类方法作者姓名李晓学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2015年1月Multi-LabelsTextClassifierwithPrimaryandSecondaryLabelsCandidateName:LiXiaoSchoolorDepartment:ComputerScienceFacultyMentor:Prof.HuangH

2、eyanChair,ThesisCommittee:Prof.LiKanDegreeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机

3、构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着信息技术、计算机和互联网技术的飞速发展,信息资源迅速膨胀。如何有效地组织、管理和使用信息,已成为当今信息用户面临的主要问题。文本自动分类技术的发展能够提高信息的处理效率,节约人工处理时间,方便用户的使用,近年来得到了广泛的关注和快速的发展。文本自动分类是信息检索与数据挖掘研究领域的热点方向,它是机器学习和自然语言处理的关键技术之一。但各种主流的分类方法都只能为文本分配一个或多个标签类别,

4、而不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,针对文本分类自动化处理技术开展研究,主要工作包括以下几个方面:1、提出了一种基于主次标签的多标签分类方法(MLTCPSL),该方法针对具有主次标签的多标签分类问题中标签关系相互独立、主次权重有别、数量要求不一的特点,将问题分解为求解主标签的多类单标签分类和求解次标签的多类多标签分类两个问题,实现了多标签分类中主、次标签的自动识别。2、提出了一种基于基准分类器和决策门限优化方法,有效解决大规模文本数据多类分类中类别不均衡问题,提高了分类器的精度,主标签处理准确率达到90%,次标签准

5、确率达到80%。3、设计实现了MLTCPSL的自动更新方法,通过对SVM进行在线式改造,使之具备自适应更新模型能力,从而使算法具备自学习能力。关键词:文本分类;多标签;主标签;次标签;MLTCPSLI北京理工大学硕士学位论文AbstractAccompanywiththerapiddevelopmentofinformationtechnology,computerscienceandInternettechnology,informationresourcegrowsdramaticallyatthesametime.Howtoorganize,manag

6、eandusetheinformationbecomesamainissuethattheusersofinformationneedtoconcernabout.ThedevelopmentofText-automotive-classificationtechnologycanhelpuserstoimprovetheefficiencywhenhandlingtheinformation,tosavetimeofmanualworkandtohelpusersusetheinformationconveniently.Text-automotive-c

7、lassificationisahotpotamongtheresearchareaofdatasearchanddataminingnowadays,andithasgarneredalotofattentionandrapiddevelopment.Itisoneofthekeytechnologiesofmachinelearningandnaturelanguagedataprocessing.Butthemainstreamedclassifymethodscanonlylabelanarticlewithmultipleclassifylabel

8、s,whichcannotidentifythepr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。