基于支持向量机的文本分类方法_刘祥楼.pdf

基于支持向量机的文本分类方法_刘祥楼.pdf

ID:52768245

大小:185.25 KB

页数:5页

时间:2020-03-30

基于支持向量机的文本分类方法_刘祥楼.pdf_第1页
基于支持向量机的文本分类方法_刘祥楼.pdf_第2页
基于支持向量机的文本分类方法_刘祥楼.pdf_第3页
基于支持向量机的文本分类方法_刘祥楼.pdf_第4页
基于支持向量机的文本分类方法_刘祥楼.pdf_第5页
资源描述:

《基于支持向量机的文本分类方法_刘祥楼.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大庆石油学院学报第32卷第2期2008年4月JOURNALOFDAQINGPETROLEUMINSTITUTEVol.32No.2Apr.2008基于支持向量机的文本分类方法1121刘祥楼,张淼,刘得军,姜继玉(1.大庆石油学院电子科学学院,黑龙江大庆163318;2.中国石油大学(北京)机电工程学院,北京102249)摘要:自动文本分类是信息处理的主要研究内容.分析中文文本分类的基本过程和主要技术,并用支持向量机(SVM)实现文本分类.比较多项式、径向基和Sigmoid核函数的分类效果.结果表明,将中文自然语言平台

2、的语料库中1900个文本作为测试样本和训练样本,采用径向基核函数的SVM分类算法,实现中文文本分类的效果最佳,总准确率达到88.579%.关键词:文本分类;支持向量机;核函数;特征项选择中图分类号:TP391文献标识码:A文章编号:10001891(2008)02009703已有的文本分类方法有贝叶斯分类、k-NN、决策树、线性最小二乘法估计、支持向量机(SVM)等.目前,各种分类方法已经出现许多改进算法,如基于训练样本分布不均匀问题的分析提出的一种改进的k-[1][2]NN文本分类算法,对条件概率加权因子改进后的简

3、单贝叶斯文本分类等.笔者采用SVM方法实现文本分类.SVM是根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推[3]广能力并能有效地解决/过学习0问题,具有良好的推广性和较好的分类精确性.不同的核函数将产生不同的分类效果,分析多项式、径向基和Sigmoid核函数的SVM分类算法,以实现文本分类的最佳效果.1文本分类原理1.1分类过程[1]文本分类是根据文本的特征将其分到预先设定的类别中,[2]是一个映射过程.它将未标明类别的文本映射到已有的类别中,该映射可以是一对一的,也可以是一对多的,定义为

4、f:AyB,其中A为待分类的文本集合,B为分类体系中的类别集合,f为分类系统的决策函数.文本分类过程见图1.1.2向量表示文本的表示主要采用向量空间模型.该模型是以向量来表示文本:W=(W1,W2,,,Wn),其中Wi为第i个特征项的权重,实验选取词作为特征项.因此,要将文本表示为向量空间中的一个向量,首先要将文本分词.使用中国科学院计算技术研究所研制的汉图1文本分类过程[4]语词法分析系统,以词在文本中出现的频率为依据对文本向量化.其计算方法主要运用TF-IDF公式:tf(t,d)log(N/nt+0.01)W(t

5、,d)=,(1)26[(tf(t,d)log(N/nt+0.01)]tId式中:W(t,d)为词t在文本d中的权重;tf(t,d)为词t在文本d中的词频;N为训练文本的总数;nt为训收稿日期:20071204;审稿人:王明吉;编辑:王文礼基金项目:黑龙江省教育厅科学技术研究资助项目(11511015)作者简介:刘祥楼(1968-),男,硕士,副教授,主要从事智能仪器、虚拟仪器方面的研究.#97#大庆石油学院学报第32卷2008年练文本集中出现t的文本数;分母为归一化因子.1.3特征提取特征提取是从许多特征中找出最有效

6、的特征.文本的特征项是通过分词获得的,有多少个词就有多少个特征项,这样得出的特征空间将是高维的.在测量空间中不能直接进行分类器的设计,因为测量空间的维数很高,更重要的是这样一种描述不能直接反映对象的本质.文本的特征提取一般是构造一个评价[5]函数,对特征集中的每个特征进行独立的评估,计算特征属性的权重,然后选择权重值在一定数目之上的特征项作为文本的特征子集.常用的评价函数有词频、信息增益、互信息、期望交叉熵等.2SVM分类器2.1最优分类面SVM方法是从线性可分情况下的最优分类面(OptimalHyper-plane

7、)提出的.对于二分类问题,目的是找出一个合适的分类函数对未知样本进行预测,即找出最优分类面.最优分类面是指要求分类面不但能将两类正确地分开,而且能使两类的分类间隔最大,见图2.图2中,实心点和空心点分别表示两类的训练样本,H为把两类正确分开的分类线,H1,H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离称为两类的分类间隔.最优分类线推广到高维空间,即成为最优分类面.1/+X+为支持向量与最优分类面之间的距离,则2/+X+为支持向量之间的距离.图2最优分类面d设线性可分样本集为(xi,y

8、i),i=1,2,,,n,xIR,yI{+1,-1},d维空间中线性判别函数的一般形式为g(x)=X#x+b,分类面的方程为X#x+b=0,(2)式中:X为权系数.将判别函数归一化处理,使两类所有样本满足

9、g(x)

10、1,即使离分类面最近样本的

11、g2(x)

12、=1,这样分类间隔等于2/+X+,因此使间隔最大等价于使+X+最小;要求分类线对所有样本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。