一种基于图的层次多标记文本分类方法

一种基于图的层次多标记文本分类方法

ID:5265576

大小:421.12 KB

页数:5页

时间:2017-12-07

一种基于图的层次多标记文本分类方法_第1页
一种基于图的层次多标记文本分类方法_第2页
一种基于图的层次多标记文本分类方法_第3页
一种基于图的层次多标记文本分类方法_第4页
一种基于图的层次多标记文本分类方法_第5页
资源描述:

《一种基于图的层次多标记文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第27卷第3期2010年3月计算机应用研究ApplicationResearchofComputersV01.27No.3Mar.2010一种基于图的层次多标记文本分类方法罗俊(广东技术师范学院计算机与网络中心,广州510665)摘要:由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中/,-4J'1实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺

2、序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层次图的分类方法的可行性和优越性。关键词:文本分类;层次分类;多标记分类;有向无圈图;拓扑排序中图分类号:TPl81文献标志码:A文章编号:1001—3695(2010)03.0909—04doi:10.3969/j.issn.1001-3695.2010.03.028Graph--basedmethodforhierarchicalmulti—-labletextclassific

3、ationLU0Jun(CenterofComputer&Network,GuangdongPolytechnicNormalUniversity,Guangzhou510665,China)Abstract:MostofexistinghierarchicaltextclassificationmethodsiSbasedonahlerarchmalcategorytree.However,suchatreestructuremaybeleadstosomekindsofinconsistencyforthereasonofmuhipleimagesofacateg

4、oryonit.Anaturesolutionforthisistoadoptahierarchicalgraphstructure,whichisflpracticalwaytodepictcategoryrelationshipsinarealworld.Sothispaperpresentedanovelmethodformulti—labletextclassificationdirectlybasedonahierarchicalgraph,calledGraphHM—LTC.Determinedtheclassificationorderamongcate

5、goriesbyatopologicalsortingofvertexesinagraph(infact,adirecteda—cyclicgraph),notbyahierarchicalstructurefromtoptodowninatree.Also,dynamicallymaintainedthetopologicalsortingaccordingtotheclassificationsituation.Experimentresultsshowthatthemethodimprovestheclassificationaccuracyinagreatde

6、gree,comparedtoarepresentativeofnon—hierarchicalmulti.1ableclassificationmethods.BoosTexter.MH.Therefore,thisworkrevealsthatagraph.basedclassificationmethodiSfeasibleandsuperior.Keywords:textclassification(TC);hierarchicalclassification;multi—lableclassification;directedacyclicgraph;top

7、ologicalsorting近年来,文本分类(TC)的研究热点主要集中在数据集倾斜(imbalanceddataset)、标注瓶颈(1abelbottleneck)、层次分类、问题的非线性可分性(nonlinearseparability)以及Web页面分类(Webdocumentcategorization)等方面o”⋯。其中,层次分类是指多层类别关系下的分类问题,面对的类别间存在类似于树或有向非循环图的多层分级类别结构,可以更好地支持浏览和查询,也使得部分规模较大的分类问题通过分治的方法得到更好的解决。更进一步,如果允许一个文档的类别标记为层次

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。