欢迎来到天天文库
浏览记录
ID:35065282
大小:2.69 MB
页数:53页
时间:2019-03-17
《基于支持向量机的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于支持向量机的文本分类研究2013张华鑫硕士情报学庞建刚副教授ClassifiedIndex:G350U.D.C:311SouthwestUniversityofScienceandTechnologyMasterDegreeThesisResearchonTextClassificationBasedonSVMGrade:2013Candidate:ZhangHuaxinAcademicDegreeAppliedfor:MasterDegreeSpeciality:DataMiningSupervisor:PangJiangangMay.25,201
2、6独创性声明本人声明所呈巧的论文是我个人在导师指导下进行的研巧工作及取得的硏究成果,,。尽我所知除了文中特别加W赫注和致谢的地方外论文中不包含巧他人已绪发表或撰写过的研究成果,也不包含为获得巧南科技大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研充所做的任何贡献巧已在论文中作了明确的说明并表示了谢意。盜名;H期:7。'主刮蘇作盛巧巧关于论文使用和授权的说明本人完全了解西南科技大学有关保留,即:学校有权、使用学位论文的规定-允许该论文被查搁和借阅A保留学位论文的复印件;学校可t公布该论义的全部
3、,LU采巧影印或部分内容可、缩印或其他复制手段保存论义。(保密的学位论文在解密后应遵守此规定)签名:。片;采/中衾削巧签名:巧速部日期方耐护句西南科技大学硕士研究生学位论文第I页摘要文本分类作为处理和组织海量文本信息的关键技术,该技术能够有效提高信息的管理和利用的效率,现已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结中文文本分类的中文分词、文本表示、特征降维、分类算法和分类结果评价的基础上,对特征降维、分类方法进行了深入研究。本文的研究内容主要包括以下几个方面:(1)将支持向量机算法(SupportVectorMachine,SV
4、M)和K最近邻算法(K-NearestNeighbor,KNN)分别应用于文本分类实践中,并对两种算法分类性能存在差异的原因进行分析,重点对支持向量机在文本分类应用中的优势和不足进行了探讨。(2)分析多项式核函数和径向基核函数两种核函数与支持向量机分类性能之间的关系,通过调整核函数参数,优化文本分类性能,为文本分类中核函数参数的选择和改进提供指导。(3)本文将潜在语义分析(LatentSemanticAnalysis,LSA)引入到文本分类实践当中,将使用潜在语义分析进行特征降维并结合支持向量机进行文本分类的方法称之为LSA_SVM方法。实验结果表明采用
5、本文提出的LSA_SVM方法进行文本分类能取得较高的准确性,且分类性能稳定。(4)研究数据样本类别大小均衡性对文本分类性能的影响,通过实验比较了长文本和短文本在分类性能上的差异,并分析了长文本和短文本在分类性能方面存在差异的原因。关键词:文本分类支持向量机核函数潜在语义分析西南科技大学硕士研究生学位论文第II页AbstractTextClassificationisthekeytechnologyinprocessingandorganizationlargeamountoftextinformation,itcaneffectivelyimprovet
6、heefficiencyofinformationmanagementanduse,andithasbecomeanimportantresearchdirectioninthefieldofdatamining.ThispaperintensiveresearchonfeaturereductionandclassificationalgorithmsafterAnalysismethodsinvolvedinChinesetextclassification,likeChinesewordsegmentation、textrepresentation
7、、featurereduction、classificationalgorithms,andevaluationofresult.Themainlycontentinthispaperincludesfollowingaspects:1.AnalysistheClassificationperformancedifferencebetweenKNNalgorithmandSVMalgorithmafterusingbothalgorithmsintextClassification,mainlyanalysistheadvantagesanddisadv
8、antagesofusingSVMalgorithmfortextClassif
此文档下载收益归作者所有