硕士学位论文-svm在文本分类中的应用

硕士学位论文-svm在文本分类中的应用

ID:8238753

大小:1.81 MB

页数:58页

时间:2018-03-11

硕士学位论文-svm在文本分类中的应用_第1页
硕士学位论文-svm在文本分类中的应用_第2页
硕士学位论文-svm在文本分类中的应用_第3页
硕士学位论文-svm在文本分类中的应用_第4页
硕士学位论文-svm在文本分类中的应用_第5页
资源描述:

《硕士学位论文-svm在文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨工程大学硕士学位论文摘要随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,作者需要对网络中纷繁芜杂的信息进行合理的组织与分类。本文的目标就是以文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。首先,本文研究分析文本分类器的总体模型,包括:信息预处理、特征表示、特征提取。重点研究分析了特征表示与特征提取技术,文本的分类算法。其次,认真研究了统计学习理论的主要内容和svm算法的基本原理。并且就svm的训练算法、分类算法、多类分类算法、核函数等热点问题分别加以讨论。阐述了svm研究和应用现状,以及所面临

2、的问题。最后详细分析研究了一个基于svm的文本分类器模型。该模型通过计算训练集中的词条和类别的加权互信息,获得文本特征集,然后通过智能分词和统计方法获得测试文本在VSM空间中的TF-IDF函数表示,通过计算语义相似度获得文本的语义信息,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。在该模型的基础上,并以系统中的多类分类为例,探讨了svm的核函数选择以及惩罚参数C的确定,并结合实验加以验证。关键词:文本分类

3、;统计学习理论:svm;多类分类哈尔滨工程大学硕士学位论文AbstractNetworkinformationincreasesrapidlywiththedevelopmentofInternet.Inordertomaketheinformationservicemoreefficientandprecise,itisimportanttomaketheinformationinInternetorganizedandcategorizedreasonably.Thetextfocusesonprocessingtextinformationinthenetw

4、orkandproceedestheresearchontextcategorizationfromtwolevels:theoryandapplication.Firstly,thetextanalyzesthetotalmodeloftextcategorization,includingtheinformationpreprocessing,featurerepresentationandfeaturecatching.Theauthoranalyzestechnologiesoffeaturerepresentation,featurecatchingan

5、dtextcategorizationalgorithmespecially.Secondly,thetextstudiestheStatisticalLearningTheory(SLT)andSupportVectorMachine(SVM)theoryseriously,discussestraining,categorizingandmulti-categoryclassificationalgorithmandkernelfunction.theauthorshowstheresearchandapplicationstatusofSupportVect

6、orMacchine,andpointsoutsomeimportantissues.Finally,ThetextanalyzesadocumentcategorizationmodelbasedonSVM.Thismodelgetsthetextfeaturesmodelbycalculatingthemutualinformationofwordsandtypes.ThenintelligentChinesewordsegmentationsystembasedonsyntaxunderstandinghelpstheauthorgettheTF-IDFde

7、scriptioninVSMofthetestingdocument.Thewordsimilarityistakentoweightthedocumentvectorfeatures.Afterbeingtranslatedtothevectors,thetrainingdocumentsarelearnedbytheSVMandthesupportvectorisgottocategorize.Thentheauthorcancategorizethetestingdocumentsaftertranslatingthedocumentstovectorfea

8、tures

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。