欢迎来到天天文库
浏览记录
ID:37027858
大小:3.07 MB
页数:54页
时间:2019-05-15
《基于潜变量的PCA降维方法在文本分类问题中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文⑩基于潜变量的PCA降维方法在文本分类问题中的应用作者姓名吕建科指导教师张朋教授学科(专业)统计学所在学院数学科学学院提交日期2018年1月独创性声明本人声+明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,论,除了文中特别加以标注和致谢的地方外文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机一构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:如J年名月2日
2、学位论文版权使用授权书本学位论文作者完全了解浙江大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权浙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签名:签字曰期:年月曰签字曰期:年月曰>丨&4¥57学位论文作者毕业后去向:H>工作单位::电话通讯地址:邮编摘要文本分类是实现处理和利用海量文本信息的有效方式,尽管在过去几十年文本
3、分类领域关键技术已经取得了重大发展、高稀疏,但是随着大数据时代的到来,具有高维程度特点的文本分类性能上还有很大改进空间.本文针对文本分类问题高维、稀疏的特点,对基于主成分分析的特征选择方法进一PCA行改进.基于,提出了种对于基于潜变量的主成分降维方法潜变量的降维方法假设生成文本的过程中特征词的选择由服从正态分布的潜变量所决定,用数学期望估计特征取值的真实值,增加特征词出现时的权重,实验表明该方法能够有效减少特征维度并实现更好的分类效果,分类准确率提升5%左右.关键词:文本分类;特征降维;主成分分析;潜变量表示IAbstractText
4、ve-categorizationisaneffectimethodtodealwithlareamountoftextingformationtttitttti.Inheasfewdecades,keechnoloiesnhefieldofexcateorizaonpygghavedeveloedsinificantlhoweversincethetraditionaltextreresentationisofpgy,,p'hihdimensionalityandWhsarsittheress
5、tilllentofroomtoimroveintextggpy,pypcateorizationwiththearrivaloftheeraofbidata.ggThisah--eraimsatthehidimensionalandsarsefeaturesoftextclassificappgpnndr-thfltalblattreretioaoosesameodorinciacomonennasisasedonenpppppypsentationwhichhasimrov
6、edtheerformanceofrincialcomonentanalysis.weppppptt?suosethathechoiceoffeaurewordsineneratintextsisdeterminedbthelappggytentvariablessubecttonormaldistributioninthemethodofrincialcomonentjpppanalsisbasedonlatentreresentationandestimatethetruevalue
7、ofthefeatureypme?valuewithmathematicalexectation.Exerimentsshowthatthisthodcanefppfectivelyreducethefeaturedimensionandachievebetterclassificationrestiltsbyincreasedtheweihtofthefeaturewordwhenitaearsinthetex
此文档下载收益归作者所有