欢迎来到天天文库
浏览记录
ID:34152582
大小:2.82 MB
页数:60页
时间:2019-03-04
《文本分类中特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文文本分类中特征选择算法研究FEATURESELECTIONMETHODSFORTEXTCATEGORIZATION陈雨杰哈尔滨工业大学2015年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:681.3密级:公开工程硕士学位论文文本分类中特征选择算法研究硕士研究生:陈雨杰导师:傅忠传教授申请学位工学工程:硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2015年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:681.3DissertationfortheMasterDegreein
2、EngineeringFEATURESELECTIONMETHODSFORCATEGORIZATIONCandidate:ChenYujieSupervisor:Prof.FuZhongchuanAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefense:June,2015Degree-Conferring-Institution:HarbinInstituteo
3、fTechnology哈尔滨工业大学工程硕士学位论文摘要信息资源随着互联网行业飞速地发展呈现出爆炸性的增长趋势,面对巨量的信息,人民很难高效的获取所需的信息。如果在信息的分类和检索方面,计算机能够给用户提供一定的支持,那将极大地提高信息的检索效率。而这些信息大多以文本的形式存在,因此,通过对海量的信息资源进行分类进而提高检索的效率,成为信息处理领域研究的热点。在文本分类过程中特征空间的高维性是当前面临的一个很大的挑战,导致对整体的分类性能产生很大的影响,因此筛选出类别隶属度较好的特征,对于提升文本分类的性能和结果的查准率意义重大。然而,虽然目前对特征选择的研究很多,但
4、是在面对一个新的任务时,很难从许多先前的研究中选择一个合[53]适的方法。本文系统地对比分析了几种经典的特征选择算法,重点讨论了六个对于文本分类影响较大的算法,在一些开源文本分类语料库上进行了对比实验,为后文提出的基于属性隶属度的特征选择算法做了一定的铺垫。在对比分析的基础上,本文提出了一种新的特征选择算法——基于属性隶属度特征选择算法(FeatureSelectionBasedOnCategorizationMembershipOfFeature,FMFS),避免了传统的特征选择算法没有很好的考虑属性在类间、类内词频分布的问题。实验结果表明FMFS相比几种经典的特征
5、选择算法表现较为理想。偏斜数据集的问题在许多领域之中普遍存在,因其数据类别分布差异的特性,传统的特征选择方法通常默认训练样本类别分布是一种平衡或者近似平衡状态[49],造成在特征选择过程中更多的关注大类别的特征,而忽略小类别的特征,最后只有少量的小类别的特征被选取,导致小类别的分类效果不理想。为了改善这种问题,在特征选择层面上,本文提出了一种能够更好地处理偏斜数据集的方法——强化属性类别信息特征选择方法(StrengthenFeatureCategoryInformationFeatureselection,SFCI),该方法综合考虑了训练样本类别分布和属性类间、类内
6、词频分布这三个信息因子,避免了类别分布差异带来的干扰。并且通过对比实验反应,该方法能够较好的提升小类别的分类性能。关键词:文本分类;特征选择;类别隶属度;偏斜数据集I哈尔滨工业大学工程硕士学位论文AbstractWiththerapiddevelopmentoftheInternet,theexplosivegrowthofinformationresources,peopleisverydifficulttoefficientlygettherequiredinformationfromahugeamountofinformation.Ifthecomputerca
7、ngivetheuserappropriatesupportintheinformationcategorizationandretrieval,sowillgreatlyimprovetheplightofthecurrentuser.Andmostoftheinformationintheformoftext,therefore,inrecentyears,byclassifyingthevastamountsofinformationresourcestoimprovetheefficiencyofretrieval,becameahotare
此文档下载收益归作者所有