欢迎来到天天文库
浏览记录
ID:8238753
大小:1.81 MB
页数:58页
时间:2018-03-11
《硕士学位论文-svm在文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、哈尔滨工程大学硕士学位论文摘要随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,作者需要对网络中纷繁芜杂的信息进行合理的组织与分类。本文的目标就是以文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。首先,本文研究分析文本分类器的总体模型,包括:信息预处理、特征表示、特征提取。重点研究分析了特征表示与特征提取技术,文本的分类算法。其次,认真研究了统计学习理论的主要内容和svm算法的基本原理。并且就svm的训练算法、分类算法、多类分类算法、核函数等热点问题分别加以讨论。阐述了svm研究和应用现状,以及所面临
2、的问题。最后详细分析研究了一个基于svm的文本分类器模型。该模型通过计算训练集中的词条和类别的加权互信息,获得文本特征集,然后通过智能分词和统计方法获得测试文本在VSM空间中的TF-IDF函数表示,通过计算语义相似度获得文本的语义信息,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。在该模型的基础上,并以系统中的多类分类为例,探讨了svm的核函数选择以及惩罚参数C的确定,并结合实验加以验证。关键词:文本分类
3、;统计学习理论:svm;多类分类哈尔滨工程大学硕士学位论文AbstractNetworkinformationincreasesrapidlywiththedevelopmentofInternet.Inordertomaketheinformationservicemoreefficientandprecise,itisimportanttomaketheinformationinInternetorganizedandcategorizedreasonably.Thetextfocusesonprocessingtextinformationinthenetw
4、orkandproceedestheresearchontextcategorizationfromtwolevels:theoryandapplication.Firstly,thetextanalyzesthetotalmodeloftextcategorization,includingtheinformationpreprocessing,featurerepresentationandfeaturecatching.Theauthoranalyzestechnologiesoffeaturerepresentation,featurecatchingan
5、dtextcategorizationalgorithmespecially.Secondly,thetextstudiestheStatisticalLearningTheory(SLT)andSupportVectorMachine(SVM)theoryseriously,discussestraining,categorizingandmulti-categoryclassificationalgorithmandkernelfunction.theauthorshowstheresearchandapplicationstatusofSupportVect
6、orMacchine,andpointsoutsomeimportantissues.Finally,ThetextanalyzesadocumentcategorizationmodelbasedonSVM.Thismodelgetsthetextfeaturesmodelbycalculatingthemutualinformationofwordsandtypes.ThenintelligentChinesewordsegmentationsystembasedonsyntaxunderstandinghelpstheauthorgettheTF-IDFde
7、scriptioninVSMofthetestingdocument.Thewordsimilarityistakentoweightthedocumentvectorfeatures.Afterbeingtranslatedtothevectors,thetrainingdocumentsarelearnedbytheSVMandthesupportvectorisgottocategorize.Thentheauthorcancategorizethetestingdocumentsaftertranslatingthedocumentstovectorfea
8、tures
此文档下载收益归作者所有