改进的互信息与lda结合的特征降维方法研究

改进的互信息与lda结合的特征降维方法研究

ID:35082260

大小:5.71 MB

页数:55页

时间:2019-03-17

改进的互信息与lda结合的特征降维方法研究_第1页
改进的互信息与lda结合的特征降维方法研究_第2页
改进的互信息与lda结合的特征降维方法研究_第3页
改进的互信息与lda结合的特征降维方法研究_第4页
改进的互信息与lda结合的特征降维方法研究_第5页
资源描述:

《改进的互信息与lda结合的特征降维方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC编号中钟篇A《幸硕i学位论文攻进巧互信息与LDA结合巧棘化译维方法研免学位申请人姓名;申请学位学生类别:全qW巧壬申请学位学科专业;计其机应巧拔术指导教师姓名;路利乂援z?\巧去学位论文'MASTERSTHKSTS硕±学位论文改进的互信息与LDA结合的特征巧维方法研究论文作者:黄勇巧巧利親S学科专业:计Jims用技术研究方向:中文信息^?诞华中!削im学院2016年5月Zm6\硕壬学位推文'MASTFRSTHFSrSResearcho

2、ntheFeatureDimensionReductionMethodBasedonImprovedMut:ualInfbrma杜onandLD乂AThesisSubmittedinPartialFulfillmentoftheReuirementqFortheM.S.DegreeinComputerScienceByHuanYonggPostradua化ProramggSchoolofComputerCentralChinaNormalUniversitySupe

3、rvisor:ChenLi,AcademicTitle:ProfessorSinaturegApprovedMay.2016\硕壬学位娩文/m|M'ASTERSTHFSfS华中师范大学学位论文原创牲声明和使用授权说明原名J牲京巧本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研巧工作所取得的研究成果。除文中己经标明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中[^^明确方式标明。本声明的法律结果由本人承担。作者签名:I巧曰期

4、:义口/各年^月Z曰学住冷文敕权使用援权书学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研’究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可W公布学位论文的全部或部分内容,可W允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密,在年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。,作者签名:4!导师签名:如M

5、名己目期:如5月2曰曰期年矣月节/占年""本人已经认真阅读CALIS高校学位论文全文数据库发布章程,同意将本人的""""学位论文提交CALIS高校学位论文全文数据库中全文发布,并可按章程中的规’定享受相关权益-年□二年。同意论文提交后滞后:□半年;□;/ftAhrf^作者签《:力导师签名:/曰期:父月Z曰曰化月/户^痴/ai硕去学位推文|^‘’'MASTTRST刖別s摘要文本分类是文本挖掘中的一个热口研究领域。分类的流程包含关键的几个环一节,每个环节处理的合适与否都对文本分类的结果有定的影响,其中文本特征降一一

6、维是分类过程中最重要的环节么。如何将文本的特征有效的选择出来是目前个较热n的研究课题。本文主要W文本特征选择中的互信息方法为研究对象,通过分析互信息特征选择方法存在的不足一,提出了种互信息特征选拝改进的方法。由于传统方法进行特征选挥时都是W数理统计为基础的,忽视了词项间的语义关系。结合LDA主题模型在分类领域中的应用,通过将传统的特征选择方法与LDA结合的思路来对文本进行特征降维,W便提高分类的效果。本文的主要工作如下;1、研究文献资料,在分析中文文本分类研巧的发展现状,重点W文本分类中互信息特征选择为例进行研究。分析互信息方法在做特征选

7、择时表现的不足,提出了一种互信息特征选择的改进方法。2、由于互信息特征选择方法没有将特征词的词頻信息1^及文本类别之间的信息考虑进来,而只是考虑了特征词在文本集中的文本频率。针对这个问题在基于文一本词频互信息改进的基础上,引入类间离散度和类内分散度两个概念,提出了种特征词词频与类别区分词相结合的互信息特征选择方法,实验分析表明本文提出的改进方法能够使文本分类的效果得到一定程度的提高。3、针对传统方法在做特征选择时都是数理统计为基础的,并未考虑词项间的语义信息,将本文改进的互信息与LDA相结合来对文本进行特征

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。