欢迎来到天天文库
浏览记录
ID:36741936
大小:892.90 KB
页数:36页
时间:2019-05-14
《基于支持向量机的文本主题分类和情感分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山西大学硕士学位论文基于支持向量机的文本主题分类和情感分类研究姓名:韩翠霞申请学位级别:硕士专业:基础数学指导教师:王素格20060601摘要近年来,随着互联网的迅速发展,网上的信息已经呈爆炸态势。面对浩如烟海的网上信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。本文基于支持向量机的方法对文本的主题分类和情感分类的进行了研究。对一些关键技术如特征的选取、权重的计算以及维数的确定做了详细的比较分析。本文的主要研究内容如下:(1)介绍了KNN
2、与支持向量机方法,并对这两种方法基于文本主题分类进行了实验,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。(2)基于支持向量机方法对四种特征选择方法进行测试,结果表明,信息增益、交叉熵以及z2统计的分类效果要优于互信息。(3)研究了特征向量的维数与特征选择方法对分类结果的关系,结果表明,不同特征选择方法达到最大值时特征向量的维数取值是不同的。(4)基于支持向量机的主题分类和基于支持向量机的情感分类的比较,实验结果表明,基于支持向量机的主题分类比基于支持向量机的情感分类效果要好,说明情感分类要比主题分类更复杂。关键词:文本分类;特征选择:支持向量机;情感分类ABS
3、TRACTWiththerapiddevelopmentofInteractinrecentyears,theelectronicinformationgreatlyincreased.FacingSOvastinformation,peopleurgentlyneedtofindawaytogetinformationquicklyandexactly.Textclassificationhasthebroadappliedfutureasthetechnicalbasisofinformationfiltering,informationretrieval,searchengine
4、,textdatabase.anddigitallibraryandSOon.Soitbecomesahotproblem.ResearchonTextandSentimentclassificationsbasedonSVMat"edoneinthepaper.Severaltechniquesasfeatureselection、weightcomputationandvectorconfirmationarecompared.Ourprimaryworksareasfollow:(1)MethodsofKNNandSVMareintroducedandusedfortextcla
5、ssification.TheexperimentresultsindicatethatSVMisbetteronstable、highprecisionandperformance.(2)FourfeatureselectionmethodsaretestedOilSVM.TheresuItssuggestedthatinformationgain、crossentropyandchi2squaretestarepriortomutualinformation.(3)Dimensionsoffeaturevectorandfeatureselectionforclassificati
6、onarestudied.TheexperimentresultsindicatethatdimensionsoffbatLlrevectoraredifferent,whendifferentfeatureselectionmethodsachievedmaximumvalues.(4)ComparedtextandsentimentclassificationbasedonSVM.ofthetwotheformerisbettertbanthelaRer,i.e.sentimentclassificationismorecomplexthantextclassification.K
7、EYWORDS:textclassification;featureselection;SVM;sentimentclassification第一章引言第一章引言1.1研究背景和意义在当前信息社会中,信息资源的增长与发展有着以下三个特点,海量、异构和动态。面对如此庞大而且急剧膨胀的信息海洋,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文档分类作为处理和组织大量文本数据的关键技
此文档下载收益归作者所有