欢迎来到天天文库
浏览记录
ID:35123121
大小:3.25 MB
页数:65页
时间:2019-03-19
《试论文本分类中特征选择方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西安科技大学硕士学位论文文本分类中特征选择方法的研究姓名:宋丽平申请学位级别:硕士专业:计算机应用技术指导教师:张小艳20090422论文题目:专业:硕士生:指导教师:文本分类中特征选择方法的研究计算机应用技术宋丽平(签名)寡盈墨张小艳(签名)豸:!:麦垒摘要文本分类是大规模文本处理的基本功能,也是提高其他文本处理功能和质量的有效手段。通过文本分类,人们可以按类别进行文本存储、检索和进一步处理。因此,迅速有效地对文本进行分类已成为一项重要的研究课题。在文本分类中,特征空间的维数高达几万,过大的特征空间会导致样本统计特性的评估变得困难,从而降低
2、分类器的泛化能力,因此从原始特征集中选取最具有代表性的特征是十分必要的。有效的特征选择可以提高分类任务的效率和分类性能。本文在分析典型文本分类系统的核心技术、系统结构的基础上,给出了一种基于语义概念的分析方法。语义概念分析方法可以看作是一种扩展的向量空间模型方法,其特征提取算法是通过结合Hownet对词所表示的概念,将词空间映射到概念空间,通过多义词排歧和同义词合并,达到降维的目的,并尽量达到词与词之间的正交性,将文本的关键词用更小的语义空间进行表示,使得在新生成的语义空间中的相关文本更为接近。另外,在传统TF—IDF权重计算算法的基础上,综
3、合考虑特征词的位置、同现频率的语义因子和特征支持度、类别强度的语义概念,增强了特征对文本内容的表现和区分能力,并将综合了TF.IDF与语义因子和语义概念的权重改进算法应用到分类系统中。本文设计并实现了一个中文文本分类系统,通过实验对改进的特征选择和权重计算算法与传统统计算法进行了比较分析,实验结果表明改进的特征选择算法和权重计算算法对分类性能都有一定的提高,具有较高的精确率和召回率。关键词:文本分类;语义概念;特征选择;权重计算;向量空间模型研究类型:应用研究Subject:AStudyontheMethodofFeatureSelectio
4、ninTextCategorizationSpecialty:ComputerAppl.cationTechnologyName:SonglipingInstructor:ZhangXiaoyanABSTRACT(Signature)Asthefundamentalfunctioninprocessinglargemountoftextdata,textcategorizationisalsoakindofeffectivewaytoimprovethefunctionandqualityofothertextprocessing.Furth
5、ermore,itCanbeusedascategorytextstorage,retrievalandfurtherprocessingthroughtextcategorization.Sothathasalreadybecomeasanimportanttaskofcarryingoutthetextcategorizationrapidlyandeffectually.Intextcategorization,thedimensionoffeaturespaceisaslargeastensofthousands.Overlargef
6、eaturespacecouldcausethedifficultyofevaluatingthestatisticalpropertiesofthesamples.Thereby,thatwouldreducethegeneralizationabilityofcategorizationmachine.Soit’Sextremelyimportanttochoosethemostrepresentativefeatureintheoriginalfeatureset.Effectivefeatureselectionwilladvance
7、theefficiencyandperformanceofcategorization.Inthispaper,akindofanalysismethodwhichbaseonsemanticconceptWasintroducedthroughanalyzingcoretechnologyandthesystemstructureofclassicsystemoftextcategorization.nleconceptofsemanticanalysisCanberegardedasanapproachofexpansionoftheve
8、ctorspacemodel.ThefeatureextractionalgorithmofthatiscomefromtheconceptofHownettoth
此文档下载收益归作者所有