文本分类中特征选择算法的研究与改进

文本分类中特征选择算法的研究与改进

ID:35082925

大小:4.09 MB

页数:62页

时间:2019-03-17

文本分类中特征选择算法的研究与改进_第1页
文本分类中特征选择算法的研究与改进_第2页
文本分类中特征选择算法的研究与改进_第3页
文本分类中特征选择算法的研究与改进_第4页
文本分类中特征选择算法的研究与改进_第5页
资源描述:

《文本分类中特征选择算法的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:文本分类中特征选择算法的研究与改进研究生徐君军专业计算机技术指导教师吴国华研究员完成日期2016年03月抗州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研。究工作所取得的成果除文中己经注巧引巧的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研巧做出重要贡献的个人和集il体,均己在文中U明确方式标明。一申请学位论文与资料若有不实之处,本人承巧切相关责任。论文作者签名:日期:年3月若曰徐襄單学

2、位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,目P;研宛生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件J公布论文,允许查阅和借阅论文;学校可^^l的全部或部分内容■、,可y允许采用影巧缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作者签名:^日期;年^月iT日指导教师签名;日期:年月(^巧龙1奏^杭州电子科技大学硕士学位论文文本分类中特征选

3、择算法的研究与改进研究生:徐君军指导教师:吴国华研究员2016年03月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchandImprovementofFeatureSelectionAlgorithminTextClassificationCandidate:XuJunjunSupervisor:Prof.WuGuohuaMarch,2016摘要文本分类作为管理和组织文本信息的有效手段,一直是文本数据挖掘领域的研究热点。但是文本分类中依然存在特

4、征高维性、稀疏性、类别离散度高等问题,严重影响了文本分类的准确性。为了解决这些问题,本文把文本特征选择算法作为主要研究对象,提出了改进的互信息、信息增益特征选择算法。改进的互信息特征选择算法通过引入特征的词频和分布信息,设计出互信息特征评估函数,消除了低频特征词和类内分布信息对分类的影响,进而提高了文本分类准确率。改进的信息增益特征选择算法通过引入特征频度和离散度信息,构造出信息增益特征评估函数,降低了分布不均衡特征词和类别离散度对分类的影响。再将特征词未出现概率在评估函数中去除,进一步优化了特征评估函数。从而提高了文本特征选择精度,改善了文本

5、分类效果。基于上述两种改进算法,本文实现了文本分类系统。文本分类对比实验表明,提出的两个改进算法均能准确的选择出最优特征子集,并且在文本分类的查全率、查准率和F1值上均优于传统算法。关键词:文本分类、特征选择、互信息、文本特征、信息增益IABSTRACTAsaneffectivemethodofmanagingandorganizingtextinformation,textclassificationhasalwaysbeentheresearchhotspotinthefieldoftextmining.Butintextclassific

6、ation,therearesomeproblemssuchashighdimensionalityoffeatures,sparsityandhighclassdiscretizationandsoon,whichseriouslyaffectitsaccuracy.Inordertosolvetheseproblems,thispaperchoosefeatureselectionalgorithmasthemainresearchobjecttoputforwardimprovedfeatureselectionalgorithmsofm

7、utualinformationandinformationgain.Theimprovedmutualinformationfeatureselectionalgorithmdevelopedafeatureevaluatefunctionofmutualinformationbyintroducingwordfrequencyandinformationdistributionofthefeaturestoremoveinfluenceoffeaturewordsoflowfrequencyandinformationdistributio

8、nwithinclassonclassification,soastoimprovetheaccuracyoftextclassification.T

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。