欢迎来到天天文库
浏览记录
ID:5356537
大小:1.18 MB
页数:10页
时间:2017-12-08
《基于类别层次结构的多层文本分类样本扩展策略》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、北京大学学报(自然科学版)第51卷第2期2015年3月ActaScientiarumNaturaliumUniversitatisPekinensis,Vo1.51,No.2(Mar.2O15)doi:10.13209~.0479—8023.2015.050基于类别层次结构的多层文本分类样本扩展策略李保利河南工业大学计算机科学系,郑州450001;E—mail:csblli@gmail.com摘要针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的
2、类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7l39,在10个参赛系统中位列第二。关键词多层文本分类;大规模中文新闻分类;中文新闻信息分类;类别层次体系中图分类号TP391ExpandingTrainingDatasetwithClassHierarchyinHierarchicalTextCateg0rizati0nLIBaoliDepartmento
3、fComputerScience,HenanUniversityofTechnology,Zhenghou450001;E—mail:csblli@gmail.tomAbstractAsthenumberofclassesisquitelargeinahierarchicaltextcategorizationproblem,itusuallycostsmuchtoobtainatrainingdatasetofreasonablesizeandsampledistribution.Severalstrategiesareproposedandco
4、mparedtogeneratenewtrainingsamplesfromtheclasshierarchyinahierarchicaltextclassificationproblem.Thesesolutionstrytomakefulluseoftheclasshierarchy(includingclassnames,theirdescriptionsifany,andrelationshipsbetweenthem),andderivenewpseudotrainingsamplesbasedonconnotationsandexte
5、nsionsofclasses.ExperimentsonthedatasetofthefirstlargescaleChineseNewsCategOrizatiOnatNLPCC2014showthatthelocalizedexpandingstrategybasedonclassextensionsperformsbetter.TheproposedoficialsystemachievedMacroF10.8413and0.7139atlevel1andlevel2respectively。whichrankedtheproposedsy
6、stemthesecondplaceamongthe10participatingsystems.Keywordshierarchicaltextclassification;largescaleChinesenewscategorization;classificationofnewsinChinese;classhierarchy多层文本分类是大规模文本信息组织的关键技分类评测,是首次面向中文的大规模多层文本分类术,在Web信息索引、新闻出版、数字图书馆、技术评测。专利管理等领域都具有重要的应用价值。高精度的与普通的文本分类问题不同,多层文本分
7、类需多层文本自动分类技术是当今大数据时代迫切需要要考虑的类别总数会达到几千、上万甚至几十万、的关键技术之一,已经成为近年来自动分类领域的几百万。众多类别之间往往存在各种依赖关系,并研究热点。目前,国际上已经连续举办4次大规模由此构成一个复杂的、层次化的类别体系。比如在多层文本分类评测。第三届国际自然语言处理与中中文新闻信息分类中,分类体系主类表(2012年修文计算会议(NLPCC2014)举办的大规模中文新闻订版报批稿)中共有6270个类别,分属5个不同的河南省基础与前沿技术研究项目(112300410007)和河南工业大学高层次人才基金(2012
8、BS027)资助收稿日期:2014—07—27;修回日期:2014—10—15;网络出版日期:2014—1l一28357北
此文档下载收益归作者所有