基于支持向量机的中文文本自动分类研究_都云琪.pdf

基于支持向量机的中文文本自动分类研究_都云琪.pdf

ID:52768235

大小:105.94 KB

页数:3页

时间:2020-03-30

基于支持向量机的中文文本自动分类研究_都云琪.pdf_第1页
基于支持向量机的中文文本自动分类研究_都云琪.pdf_第2页
基于支持向量机的中文文本自动分类研究_都云琪.pdf_第3页
资源描述:

《基于支持向量机的中文文本自动分类研究_都云琪.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第28卷 第期11计 算 机 工 程2002年月11Vol.28№11ComputerEngineeringNovember2002·软件技术与数据库·文章编号:1000—3428(2002)11013——702文献标识码:A中图分类号:TP391基于支持向量机的中文文本自动分类研究12都云琪,肖诗斌(1.西安电子科技大学计算机学院,西安710071;2.北京信息工程学院中文信息处理研究中心,北京)100101摘要:根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类

2、系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。关键词:文本分类;线性支持向量机;招回率;准确率StudyonChineseTextCategorizationBasedonSupportVectorMachine12DUYunqi,XIAOShibin(1.InstituteofComputerScience,X

3、idianUniversity,;Xi'an7100712.CIPRCenter,,BeijingInformationTechnologyInstituteBeijing100101)【】AbstractThispaperimplementsaChinesetextcategorizationsystemusingthelinearsupportvectormachinebasedontheparticularpropertyoflearningwithtextdata,andthetestsonthe

4、truelarge-scaletextaremade.Theresultsshowthattherecalliscomparativelylowandtheprecisioniscomparativelyhigh.Thepaperanalyzesthereasonandproposesamethodtomodulatetheoutputoftheclassifierbythemisclassifiedtrainingtexts.Theexperimentsshowthatthemethodimproves

5、thesystemeffectivelyandsatisfactorycategorizationeffecthasbeenachieved.【Keywords】Textcategorizaiton;Linearsupportvectormachine(LSVM);;RecallPrecision本文根据文本数据学习的特点,采用线性支持向量机r1r21rr()4f(w)=w=w×w(LSVM)学习算法,实现了一个中文文本自动分类系统,22试验结果显示,系统的招回率较低,而准确率较高,本文对可以看出这是一个

6、二次优化问题,采用lagrange乘子此进行分析发现,被拒识的样本大部分都集中在其实际所属法,可将原问题转化为优化问题的对偶形式:在约束类别所对应的最优分类面附近,所以我们提出了一种利用训k()5练文档中的拒识样本信息对分类器输出进行改进的方法,试åaiyi=0i=1验表明,该方法有效地提高了系统的分类性能。a³0,i=1,Lk()6i支持向量机是Vapnik等人根据统计学习理论提出的一种下对lagrangea系数i求解下列函数[1]新的机器学习方法,它以结构风险最小化原则为理论基础,()7rk1krr通

7、过适当选择函数子集及其该子集中的判别函数使学习机的Q(a)=åai-åaiajyiyj(xi×xj)实际风险达到最小,保证了通过有限训练样本得到的小误差i=12i,j=1的最大值。这是一个不等式约束下二次函数极值问题,存在分类器对独立测试集的测试误差仍然小,得到一个具有最优*分类能力和推广泛化能力的学习机。我们称样本可分情况下唯一解,若ai为最优解,则k的支持向量机为线性支持向量机,由于大部分文本数据是线r**rw=åaiyixi性可分的,因此本文采用的是线性支持向量机学习算法。i=0()81LSVM识别

8、算法根据Kuhn-Tucker条件,这个优化问题的解须满足rr支持向量机为二元分类算法,设线性可分样本集为ai(yi(w×xi+b)-1)=0i=1,L,k()9rr(x,y)(x,y)ÎRd´{±1}i1,,kii,ii,=Ld,维空间中线性判别由上式可知,远离分类面的样本所对应的ai必定为零,函数的一般形式为rrr非零ai所对应的样本必定位于分类面上,我们称位于分类面g(x)=w×x+b(1)上的样本为支持向量。b*值可由

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。