欢迎来到天天文库
浏览记录
ID:35082934
大小:5.39 MB
页数:56页
时间:2019-03-17
《文本分类特征提取算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP391单位代码:10183研究生学号:2013544042密级:公开參宙林大学硕古学位论文专A聲位()文本分类特征提取算法的硏究ResearchonFeatureExtractionAlorithmofTextClassificationg作者姓名:刘斌类别:工程硕:t领域(方向):软件工程指导教师:欧阳丹形教授培养单位:软件学院2(U6年5月文本分类特征提取算法的研究ResearchonFeatureExtractionAlgorithmofTextClassification作者姓
2、名:刘斌领域(方向):软件工程指导教师:欧阳丹彤教授类别:工程硕士答辩日期:2016年5月28日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的会部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕±学位论文原创性声明,本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下独立进行研巧工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的
3、研巧做出重要贡献的个人和集体。,均己在文中找明确方式标明本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:曰期;年r月。曰^摘要文本分类特征提取算法的研究文本分类是一种分析与使用海量文本数据信息的有效手段。其技术难点之一是处理特征向量空间的高维性,这种高维性使得文本分类变得十分低效,因此特征降维成为文本分类工作首先需要解决的问题。作为特征向量空间降维常用的技术,特征提取方法的性能高低直接影响到文本分类的效果。许多研究表明,信息增益是一种性能相对较好的特征提取方法。然而,信息增益算法在文本分类的问题上仍有其局限和优化空间,本文从以下三个方面对其进行
4、了改进:(1)为了平衡每个特征词在信息增益公式中出现与否对信息增益评分的影响能力,借鉴sigmoid的函数思想,提出了基于词频的γ调节因子的信息增益改进算法。(2)为了体现特征词在各个类别分布均匀程度与区分能力的关联,确保在各个类别之间分布不均匀的特征词具有较强的区分能力,着眼于特征词在类别分布情况,对信息增益的评分结果进行进一步优化。(3)考虑到现实文本集中非均衡文本大量存在,倘若算法没有顾及各类别包含的文档数大小,则会使其优先选择趋向大类的特征词,而忽视小类的特征词。为此,本文借鉴了统计学中卡方检验的思想,针对非均衡文档类别评分排序优化的方法,使得在特征维度较小的情况下,
5、仍能保持不错的性能。对比实验结果表明:本文的改进算法所得到的文本分类结果,在各个类别上的准确率、召回率以及F1值都取得较理想的性能提升,从而验证了本文所提出的信息增益改进算法的可行性与有效性。关键词:文本分类,特征提取,信息增益,调节因子,卡方检验IAbstractResearchonFeatureExtractionAlgorithmofTextClassificationTextclassificationisaneffectivemethodtoanalyzeandusemassivetextdata.Oneofthedifficultiesistodealwithth
6、ehighdimensionoffeaturesanditmakestextclassificationveryinefficient.Therefore,dimensionreductionisthefirstproblemtobesolvedintextclassificationsystem.Asafeaturevectorspacedimensionreductiontechniques,theperformanceoffeatureextractionmethoddirectlyaffectstheeffectoftextclassification.Manystu
7、diesshowthatinformationgainisarelativelygoodfeatureselectionmethod.However,theinformationgainalgorithmstillhasitslimitationsandoptimizationspaceinthetextclassification.Thispaperhasimprovedthealgorithmfromthefollowingthreeaspects:(1)Inordertobalancetheinf
此文档下载收益归作者所有