欢迎来到天天文库
浏览记录
ID:33507140
大小:3.81 MB
页数:60页
时间:2019-02-26
《基于tf-idf的文本分类系统中权重计算和特征选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据分类号:TP3190单位代码:11232密级:公开◆f富信息斟枝t-雩工学硕士学位论文基于TF-IDF的文本分类系统中权重计算和特征选择方法研究学院:专业:学号:作者:指导教师:完成日期:信息与通信工程学院通信与信息系统2012020124徐冬冬吴韶波副教授二O一四年十二月三十日万方数据学位论文版权使用授权书本人完全了解北京信息科技大学关于收集、保存、使用学位论文的规定,按照学校要求提交学位论文的印刷本和电子版本。学校有权保留学位论文并向中国科学技术信息研究所等国家主管部门或其指定机构送交论文的电子版和纸质版,允许论文被查阅和借
2、阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。学校有权适当复制、公布论文的全部或部分内容。学校有权将本人的学位论文加入《中国优秀硕士学位论文全文数据库》和编入《中国知识资源总库》。学位论文作者签名:徐叁冬羽侈年;月/D曰留么开口保密(——年——月)(保密的学位论文在解密后应遵守此协议)指导教师签名二一妥专烈矗学位论文作者签名:徐毒奠为lr年弓月foEt加/多年.3月,o日万方数据硕士学位论文原创性声明本人郑重声明:所呈交的论文题目为《基于TF.IDF的文本分类系统中权重计算和特征选择方法研究》学位论文,是本人在导师指导下,进
3、行研究工作所取得的成果。尽我所知,除了文中特别加以标注的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均己在文中以明确方式标明并表示了谢意。本学位论文原创性声明的法律责任由本人承担。作者签字:徐氧木2.,o/5年3月/o日万方数据摘要词频.逆文本频率(TermFrequency.InverseDocumentFrequency,TF.IDF)是一种经典的基于VSM模型的权重计算方法,其算法相对简单,非常便于计算,应用较多。但该方法比较粗糙,容易
4、导致特征空间高维稀疏。基于传统的TF.IDF特征选择思想,本文引入类别描述因子,基于类内、类间信息修正TF.IDF权重因子,提出一种包含类别信息的TF.IDF.CD(CategoryDescription,CD)模型。该模型的TF部分含有特征项的类内频数信息,IDF部分含有特征项的类间频数信息,突出类别贡献大的特征的权重,抑制次要特征权重。最后通过文本分类实验,将其在偏斜语料和均衡语料下分别与NB、KNN等分类器结合进行文本分类实验,比较其与TF.IDF、CTD等几种方法的分类精确度。结果显示,TF.IDF.CD方法在特征项较少时已有很
5、好分类效果。相比TF.IDF,在不同语料以及不同分类器下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。相比性能较好的CTD,TF.IDF.CD与NB、SVM及DT结合,其平均分类精度均有1%~13%的提高;而在非均衡语料下,与KNN结合时其性能较CTD低2个百分点。TF.IDF.CD与对语料不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。实验结果表明TF.IDF.CD特征选择方法有效,对TF.IDF的改进具有一定借鉴意义。关键词:文本分类;权重计算;TF.IDF;类别描述万方数据Abs仃actTF-IDFisacl
6、assicalweightapproach,whichisbasedontheVSMmodel.It’Ssimpleandeasycomputing.Butit’SSOroughthatfeaturespacewillberatherrarefactive.Basedonthecategoricaldescription,thispaperintroducesthecategoricalinformation,modifiestheTF—IDFandproposestheTF-IDF—CDapproach.Combiningdiffer
7、entweightingapproachessuchasTF-IDFandCTDwithvariedclassifiersuchasNBandSVM,thispaperconductstextcategorizationexprimentinbalancedcorpusandunbalancedcorpusrespectively.Thenperformancesofallweightingapproachesarecomparedandanalysed.Finally,theresultshowsthattheTF-IDF-CDper
8、formswell,evenwhentherearealessnumberoffeatureitems.ComparedtotheclassicalTF-IDF,theTF-IDF-CDgreatlyimp
此文档下载收益归作者所有