基于支持向量机的文本分类研究_周咏梅.pdf

基于支持向量机的文本分类研究_周咏梅.pdf

ID:52768241

大小:212.69 KB

页数:2页

时间:2020-03-30

基于支持向量机的文本分类研究_周咏梅.pdf_第1页
基于支持向量机的文本分类研究_周咏梅.pdf_第2页
资源描述:

《基于支持向量机的文本分类研究_周咏梅.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中国包装工业’/012345360724!"#$%&%!’%(#$(#$)*+,-.知识天地O摘要P本文介绍了基于支持向量机(@?!C)的文本分类基本原理、基于支持向量机的方法,并给出实现的例子。关键词:文本分类文本分类研究支持向量机训练文档!9$-&%’-:!"#$%&%’(#)*(+,-.’$*"’%(#).#%/’&),0’*"+,+)!’1*!"#$#%&’()*+#,-./%$$010’%-0)*)12/&$$#3#.&*#+)+34$#)56-%%+(*7’.82$0*34566)&

2、-7#’-)&8%’(0*#$*+(9&."#)’$:;*&/$+#)*(+,-.’$*"’’1&0%/’$:周咏梅陈旭日:#;<)&=$:!’1*2/&$$#3#.&*#+)<679$156E15$E---E15BE---E

3、15CA,其文档加入,用人工的方式进行分类,几乎是不可行的。因此,中15B表示全局特征词FB在类别D5中的权重。将文本JK映自动文本分类是必要的。但这些系统中的文档是一些没有射到!中,并加权。就构成文本JK的特征词向量(也称文本标题、摘要或关键词的非结构化的文本文档;这给自动分类向量)。LK2>1K6E1K$E---E1KBE---E1KCAE其中,1KB表示全局特征带来了很大的困难。大多数文本分类系统采用向量空间模词FB在文本JK中的权重。然后,选择相应的分类方法,计型>?@!A。然而,向量空

4、间模型用文本特征词作为向量,因而算其相似性,并派送到相应的类中。其向量维数很大。支持向量机>@?!@A是?"<)5B等人根据统因此,文本自动分类需要解决三个问题,即如何减少特计学理论提出的一种学习方法,根据?"<)5B的结构风险最征空间、如何确定特征词的权重和用何种分类算法。小化原则,尽量提高学习机的泛化能力,它能由有限训练样$-6特征空间的减少本得到的决策规则对独立的测试集仍能够得到较小的误特征空间的大小对使用@?!@方法,没有什么影响,但差。它可以影响特征空间的存贮,在线处理能力等。因此,在

5、文本文将介绍基于支持向量机(@?!C)的文本分类基本原本自动分类系统中,有必要减少特征的空间。一般有如下几理、方法,并给出实现的例子。种方法:·采用C1,<=,)J*5C1CM即将那些对文本没什么影响的$-文本分类的基本原理词构成C1,<=,)J*5C1C,如“,N”E“"(J”E“N,)”E“的”,“了”等。文本分类可以描述为这样一个问题:对于每个新到的·利用信息增益原理>0&A进行特征词的舍取,即:44文本,计算机自动判断它与系统规定的各个文本类别之间0&(1)23’7(85)*,9(7(8

6、5):7(1)’7(85;1)的相关性,从而给每个新到的文本指派一个类别。526526给定经过人工分类的文本集合D6ED$E---ED(作为训练4*,9(7(85;1)):7(1)’7(85;51)*,9(<(85;51)集,通过一个或一组可以反映词在一个类别D5中的分布情526况的统计量(如频度、集中度、分布度等)来选择该类别的局其中,1表示某特征词ED5表示第5个类,6*5*4,<>1A部特征。词集合F52GF56E---EF54E---EF5EH5I,其中F54表示条件概率。为第4个特征词

7、。H5表示该类别的特征词数。所有类别的局$-$特征词的权重!"#$%%$!!"&’(’)"*+,-./中国包装工业’/012345360724!"#$%&%!’%(#$(#$)*+,-.知识天地最常用的权重的确定的方法是词频度I逆文档频度[=:O;J>5K[66]*(JAKO再计算如下决策函数1231(45)601(45)(78&()=(>)6FG([’#5"5(>·>5)H;]31(45)56<01

8、J45K表示在一给定文档中,特征词45出现的频率,31若=J>K66]JAK可有三种形式O本系统采用L-支持向量机JMN!MK径向基函数J9^1K。支持向量机JMN!K是一种建立在统计学习理论基础上P-系统实现的机器学习方法O它具有以下P个理论要点:J

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。