基于类别层次结构的多层文本分类样本扩展策略

基于类别层次结构的多层文本分类样本扩展策略

ID:1145871

大小:1.18 MB

页数:10页

时间:2017-11-08

基于类别层次结构的多层文本分类样本扩展策略_第1页
基于类别层次结构的多层文本分类样本扩展策略_第2页
基于类别层次结构的多层文本分类样本扩展策略_第3页
基于类别层次结构的多层文本分类样本扩展策略_第4页
基于类别层次结构的多层文本分类样本扩展策略_第5页
资源描述:

《基于类别层次结构的多层文本分类样本扩展策略》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京大学学报(自然科学版)第51卷第2期2015年3月ActaScientiarumNaturaliumUniversitatisPekinensis,Vo1.51,No.2(Mar.2O15)doi:10.13209~.0479—8023.2015.050基于类别层次结构的多层文本分类样本扩展策略李保利河南工业大学计算机科学系,郑州450001;E—mail:csblli@gmail.com摘要针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规

2、模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7l39,在10个参赛系统中位列第二。关键词多层文本分类;大规模中文新闻分类;中文新闻信息分类;类别层次体系中图分类号TP391ExpandingTrainingDatasetwithClassHiera

3、rchyinHierarchicalTextCateg0rizati0nLIBaoliDepartmentofComputerScience,HenanUniversityofTechnology,Zhenghou450001;E—mail:csblli@gmail.tomAbstractAsthenumberofclassesisquitelargeinahierarchicaltextcategorizationproblem,itusuallycostsmuchtoobtainatrain

4、ingdatasetofreasonablesizeandsampledistribution.Severalstrategiesareproposedandcomparedtogeneratenewtrainingsamplesfromtheclasshierarchyinahierarchicaltextclassificationproblem.Thesesolutionstrytomakefulluseoftheclasshierarchy(includingclassnames,the

5、irdescriptionsifany,andrelationshipsbetweenthem),andderivenewpseudotrainingsamplesbasedonconnotationsandextensionsofclasses.ExperimentsonthedatasetofthefirstlargescaleChineseNewsCategOrizatiOnatNLPCC2014showthatthelocalizedexpandingstrategybasedoncla

6、ssextensionsperformsbetter.TheproposedoficialsystemachievedMacroF10.8413and0.7139atlevel1andlevel2respectively。whichrankedtheproposedsystemthesecondplaceamongthe10participatingsystems.Keywordshierarchicaltextclassification;largescaleChinesenewscatego

7、rization;classificationofnewsinChinese;classhierarchy多层文本分类是大规模文本信息组织的关键技分类评测,是首次面向中文的大规模多层文本分类术,在Web信息索引、新闻出版、数字图书馆、技术评测。专利管理等领域都具有重要的应用价值。高精度的与普通的文本分类问题不同,多层文本分类需多层文本自动分类技术是当今大数据时代迫切需要要考虑的类别总数会达到几千、上万甚至几十万、的关键技术之一,已经成为近年来自动分类领域的几百万。众多类别之间往往存在各种依赖关系

8、,并研究热点。目前,国际上已经连续举办4次大规模由此构成一个复杂的、层次化的类别体系。比如在多层文本分类评测。第三届国际自然语言处理与中中文新闻信息分类中,分类体系主类表(2012年修文计算会议(NLPCC2014)举办的大规模中文新闻订版报批稿)中共有6270个类别,分属5个不同的河南省基础与前沿技术研究项目(112300410007)和河南工业大学高层次人才基金(2012BS027)资助收稿日期:2014—07—27;修回日期:2014—10—15;网络出版日期:2014—1l一28357北

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。