支持向量机的中文文本分类研究_翟林.pdf

支持向量机的中文文本分类研究_翟林.pdf

ID:52768238

大小:151.77 KB

页数:4页

时间:2020-03-30

支持向量机的中文文本分类研究_翟林.pdf_第1页
支持向量机的中文文本分类研究_翟林.pdf_第2页
支持向量机的中文文本分类研究_翟林.pdf_第3页
支持向量机的中文文本分类研究_翟林.pdf_第4页
资源描述:

《支持向量机的中文文本分类研究_翟林.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第33卷(2005)第3期计算机与数字工程21X支持向量机的中文文本分类研究翟林刘亚军(东南大学计算机科学与工程系南京210096)摘要支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。关键词:文本分类支持向量机中图分类号:TP391ResearchonChineseTextCategorizationBasedonSupportVectorMachineZhaiLinLiuYajun(DepartmentofComputerS

2、cienceandEngineering,SoutheastUniversity,Nanjing210096)Abstract:SupportVectorMachineisanovelmachinelearningmethodbasedonstatisticallearningtheory.ThispapergivesaresearchtotextcategorizationusingSupportVectorMachineandimplementsanautomaticChinesetextcategorizationsystem.Italso

3、givesthetestresults.Keywords:textcategorization,supportvectormachineClassnumber:TP391加时,其分类时间将急剧增加。1引言[1],[3]支持向量机(SupportVectorMachine,随着信息技术的发展,大量以文本形式存在的SVM)是Vapnik等人根据统计学习理论提出的一资料需要管理。在庞大的文本数据库中,和特定用种新的机器学习方法,它是对结构风险最小化归纳户相关的只有很小的一部分。通过文本分类技术,原则的近似。特点是具有出色的学习性能,只需较将文本分配到一

4、个预定义的类别结构体系中,可以少的样本就可以迅速训练出具有相对较高性能指限定文本的查找范围,使用户更容易找到需要的资标的分类器。本文将支持向量机方法用于中文文料。本分类系统,取得了满意的效果。现有的分类技术主要是基于统计理论和机器2关键技术学习方法的,比如NaiveBayes、KNN等。NaiveBayes模型是基于两项假设之上的一种概率分类2.1文本预处理模型:(1)所有词在文本中出现的概率是相互独立2.1.1文本的表示的;(2)文档的类别同长度无关。该模型中的假设文本在由分类系统处理之前,必须表示成计算对于绝大多数的真实文本都不成立,在实际应

5、用中机学习和分类算法可以识别的形式。本文采用TF[2]的效果并不稳定。KNN方法是一种基于要求的或-IDF特征表示法,将文本表示成由词条组成的懒惰的学习方法,它存放所有的训练样本,直到测向量形式。对每个词计算相应的权重后,文本可试样本需要分类时才建立分类,虽然分类效果较映射为一个特征向量V(d)=(t1:X1(d),...,好,但分类时间是非线性的,而且当训练文档数增tn:Xn(d)),其中ti为词的标识,Xi(d)为词ti在X收到本文时间:2004年6月23日22支持向量机的中文文本分类研究第33卷文本d中的权重,其计算方法为:面正确划分,并且

6、距该平面最近的异类向量之间的N距离最大(即Margin最大化),则该平面为最优分tfik(d)@log(+0.01)nkXi(d)=类超平面(图1中平面H),其方程为w#x+b=0,nN2向量w为分类面的法线,向量x位于分类面上。Etfik(d)@log(n+0.01)kk=1其中距离分类面最近的异类向量被称为支持向量(1)(图1中加圆圈的点)。其中,tfik(d)表示词tk在文本d中出现的频率,N表示全部样本文本的总数,nk表示N个样本文本中出现词tk的文本数。为了获取每个词的权重,需要将文本进行词切分。首先去除停用词等对分类没有多大影响的词,

7、然后统计词频,利用公式(1)计算出权重。2.1.2特征项的提取特征项提取是文本分类系统中十分关键的问图1线性可分情况下的最优分类超平面题。首先,它可降低向量空间的维数,提高系统的一组支持向量可以唯一地确定一个分类超平速度;其次,构成文本的大量的词对文本分类的意面。义是不同的,一些在通用的、各个类别中都普遍存对于线性可分的问题,可假定训练集中的向量在的词对分类的贡献小,而在某特定类中出现比重满足:大而在其他类中出现比重小的词对文本分类的贡yi[(w#xi)+b]-1E0,i=1,...,n(2)献大。为了提高分类精度,对于每一类,应去除那此时分类间

8、隔为2/+w+,使分类间隔最大等些表现力不强的词,筛选出针对该类的特征项集2[2]价于使+w+最小,因此构造最优分类面的问题合。本系统采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。