欢迎来到天天文库
浏览记录
ID:5265576
大小:421.12 KB
页数:5页
时间:2017-12-07
《一种基于图的层次多标记文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第27卷第3期2010年3月计算机应用研究ApplicationResearchofComputersV01.27No.3Mar.2010一种基于图的层次多标记文本分类方法罗俊(广东技术师范学院计算机与网络中心,广州510665)摘要:由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中/,-4J'1实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺
2、序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层次图的分类方法的可行性和优越性。关键词:文本分类;层次分类;多标记分类;有向无圈图;拓扑排序中图分类号:TPl81文献标志码:A文章编号:1001—3695(2010)03.0909—04doi:10.3969/j.issn.1001-3695.2010.03.028Graph--basedmethodforhierarchicalmulti—-labletextclassific
3、ationLU0Jun(CenterofComputer&Network,GuangdongPolytechnicNormalUniversity,Guangzhou510665,China)Abstract:MostofexistinghierarchicaltextclassificationmethodsiSbasedonahlerarchmalcategorytree.However,suchatreestructuremaybeleadstosomekindsofinconsistencyforthereasonofmuhipleimagesofacateg
4、oryonit.Anaturesolutionforthisistoadoptahierarchicalgraphstructure,whichisflpracticalwaytodepictcategoryrelationshipsinarealworld.Sothispaperpresentedanovelmethodformulti—labletextclassificationdirectlybasedonahierarchicalgraph,calledGraphHM—LTC.Determinedtheclassificationorderamongcate
5、goriesbyatopologicalsortingofvertexesinagraph(infact,adirecteda—cyclicgraph),notbyahierarchicalstructurefromtoptodowninatree.Also,dynamicallymaintainedthetopologicalsortingaccordingtotheclassificationsituation.Experimentresultsshowthatthemethodimprovestheclassificationaccuracyinagreatde
6、gree,comparedtoarepresentativeofnon—hierarchicalmulti.1ableclassificationmethods.BoosTexter.MH.Therefore,thisworkrevealsthatagraph.basedclassificationmethodiSfeasibleandsuperior.Keywords:textclassification(TC);hierarchicalclassification;multi—lableclassification;directedacyclicgraph;top
7、ologicalsorting近年来,文本分类(TC)的研究热点主要集中在数据集倾斜(imbalanceddataset)、标注瓶颈(1abelbottleneck)、层次分类、问题的非线性可分性(nonlinearseparability)以及Web页面分类(Webdocumentcategorization)等方面o”⋯。其中,层次分类是指多层类别关系下的分类问题,面对的类别间存在类似于树或有向非循环图的多层分级类别结构,可以更好地支持浏览和查询,也使得部分规模较大的分类问题通过分治的方法得到更好的解决。更进一步,如果允许一个文档的类别标记为层次
此文档下载收益归作者所有