欢迎来到天天文库
浏览记录
ID:35070943
大小:2.80 MB
页数:58页
时间:2019-03-17
《基于邻居辅助策略的两阶段层次文本分类模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于邻居辅助策略的两阶段层次文本分类模型研究重庆大学硕士学位论文(学术学位)学生姓名:王春元指导教师:古平副教授专业:计算机软件与理论学位类别:工学重庆大学计算机学院二O一六年四月ResearchonTwo-stageHierarchicalTextClassificationModelBasedonNeighbor-assistantStrategyAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMas
2、ter’sDegreeofEngineeringByChunYuanWangSupervisedbyAss.Prof.PingGuSpecialty:SoftwaretechnologyandtheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2016重庆大学硕士学位论文中文摘要摘要传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还
3、利用扁平化方式组织这些类别,那么为一个文档正确的指定其目标类别的难度就变得非常大。所以,实际应用中通常将这些类别组织成层次结构。基于层次结构,学者们引入了层次文本分类方法。比较常用的层次文本分类方法有Big-bang分类方法和Top-down分类方法。由于Big-bang分类方法的时间开销和空间开销较大以及Top-down分类方法“阻滞”现象的不可避免性,传统的层次文本分类方法并不能很好的应用到大规模层次文本分类中。而新近提出的两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法。相对
4、于传统层次文本分类方法,THTC模型在分类性能和时间效率上都有了显著提高,但是该模型在分类过程中仍然存在很多不足。因此,本文在THTC模型的基础上提出了基于邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。本文的主要工作包括以下三个方面:①系统的研究了层次文本分类中的方法和应用,并在THTC模型的基础上提出了THTC-NA模型。THTC-NA模型包含搜索和分类两个阶段,搜索阶段通过引入基于类别的搜索策略进行候选搜索,对原类别层次结构进行虚拟剪枝,以减小数据规模。并采用Top-down方法将候选类别组织成
5、层次结构,这样可以保持该层次结构在原类别层次结构中的位置不变,从而可以不用对每一个待分类文档都训练一个特殊的分类器。②分类阶段利用类别层次结构中各个节点的邻居节点的分类结果辅助对该节点的分类判决,并针对邻居节点可靠性未知的问题引入了置信度。同时,以层次路径做全局搜索,避免了由于单一节点误判可能导致局部最优陷阱。在数据集Newsgroups-18828上的实验表明,邻居节点的分类结果对指定待分类文档的目标类别有很好的辅助作用。③针对THTC模型未能充分利用搜索阶段的信息的问题,THTC-NA模型提出一种新的分类判决
6、方法。该方法将搜索阶段的结果和分类阶段的结果都融入到分类模型中,以加权累加的结果作为最后的分类判决。实验结果表明:融合两阶段的结果判定待分类文档的目标类别的方法在分类准确率和宏平均F1值上都要优于只使用分类阶段的结果判定文档的目标类别的方法。I重庆大学硕士学位论文中文摘要关键词:两阶段,层次文本分类,邻居辅助策略,置信度II重庆大学硕士学位论文英文摘要ABSTRACTTraditionaltextclassificationmethodshaveachievedverygoodclassificationresu
7、ltswhenthenumberofcategoriesissmall.However,withthescaleofcategoriesbigger,suchasLookSmart,ODPetc.,itbecomesmoredifficulttoassignonecategorytoanothercorrectlywithallcategoriesareorganizedinparallel.Therefore,thesecategoriesareusuallyclassifiedintohierarchical
8、structurefirstly.Basedonhierarchicalstructure,scholarsintroducedhierarchicaltextclassificationmethod,suchasBig-bangandTop-downcommonlyused.Big-bangclassificationmethodisasolutionwithaclas
此文档下载收益归作者所有