欢迎来到天天文库
浏览记录
ID:32032635
大小:1.34 MB
页数:42页
时间:2019-01-30
《【硕士论文】基于支持向量机的文本分类方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要随着计算机技术和www的飞速发展,互联网上的电子文档信息急剧增加。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。本文从文本的向量模型表示,特征选择和分类器训练这三个步骤较系统地研究了文本自动分类。(1)讨论了文本表示的整个过程——分词,建立停用词表,特征选择,权重计算,生成向量空间。针对停用词对分类的影响,建立了适合文本分类的停用词表,使向量维数得到初步降低;对现有特征选择方法进行了介绍和对比,
2、构造了一种适合支持向量机的特征选择函数——基于类内频率的特征选择函数。(2)介绍了当前性能较好的三种文本分类方法:朴素贝叶斯、KNN法和支持向量机法,对它们进行了对比研究,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。(3)结合粗糙集和支持向量机的优点,提出了基于粗糙集与支持向量机融合的文本分类方法,利用粗糙集的约简可以降低向量的维数,从而缩短了支持向量机的训l练时间。(4)实现了一个实用性较强的文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练和测试。(5)对文本分类未来研究进行了展望。关键词:文
3、本分类;特征选择;粗糙集;支持向量机百度排名http://www.001baidu.com/童装批发网http://www.tongzhuangpifawang.com/AbstractWiththedevelopmentatfullspeedofthetechnologyofthecomputerandWWWjtheelectronicfileinfoHnationonImemetincreasessha叩ly.Inthefaceofsovastinfbmation,peopleurgentIyneedtolookforawaythatcanobtainnec
4、essaryinfomationfleetlyandaccuratelyAndtextcategorizationasmetechllolo西calfoundationisusedinsuchfieldsasinfbmationflltering,infbHnationretrieVal,searchengine,textdatabase,digitized1ibraryetc.ThereareextensiVeappl.cationprospects,soitbecomesthehotproblem.Thisp印erstudysystematicallytex
5、tautomaticcategorization矗ommreewaVsincludingvectormodelrepresentation,featureselectionandclassmertraining.(1)ThewholeprocessofteXtrepresemationwerediscussed⋯wordsegmentation,buildingstopwordslist,featureselection,weightcomputationa11dgeneratingvectorspace.Aimattheinfluenceofstopwords
6、,alist,whichisfitfortextcategorization,issetupandmakesthevectordimensionreduce.TheeXistin2memodsoffeatureselectionwereimroducedandcomDaredandakindoffeatureselectionmnctionwhichissuitableforSVMwasconstmcted—f宅amreselectionfunctionbasedonfrequencyinkind.f2)ThreebettermethodsofteXtcateg
7、orization—NaiVeBayes,K卜mandSVMwereintroducedandcomparedatpresent:TheexDerimentalresultindicatesthatSVMisabettermetllodwithrelatiVelystabmzation,hi曲precisionandb毗erperfo玎nance.CombinedadVantagesofRou曲setsandSVM,ateXt(3)categorizationmethodbasedonRoughsetsandSVMwereproposed.Thismethodc
8、ancutdownvec
此文档下载收益归作者所有