超球支持向量机文本分类方法改进-论文.pdf

超球支持向量机文本分类方法改进-论文.pdf

ID:53025567

大小:485.77 KB

页数:7页

时间:2020-04-12

超球支持向量机文本分类方法改进-论文.pdf_第1页
超球支持向量机文本分类方法改进-论文.pdf_第2页
超球支持向量机文本分类方法改进-论文.pdf_第3页
超球支持向量机文本分类方法改进-论文.pdf_第4页
超球支持向量机文本分类方法改进-论文.pdf_第5页
资源描述:

《超球支持向量机文本分类方法改进-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、超球支持向量机文本分类方法改进米胡吉明陈果(武汉大学信息资源研究中心武汉430072)摘要:【目的】针对文本分类中类别特征向量改变和重叠等问题,对超球支持向量机(HSSVM)分类算法进行改进。【方法】基于增量学习和密度决策函数对原始HS.SVM进行改进,实现超球类支持向量的动态改变,准确计算构造超球支持向量机的决策函数,从而达到提高文本分类效果的目的。【结果】与原始超球支持向量机的文本分类实验对比表明,本文所提方法在准确率和召回率方面优于其他方案,建模时间减少且对预测精确度的影响不大。【局限】应进行多

2、种类型数据集上的实验验证,推广方法改进的适用性;其次对分类算法的底层改进欠缺,需继续探索。【结论】本研究有利于提高大规模文本分类的准确性和减少训练时间,从而提升文本分类效果。关键词:LDA主题模型超球支持向量机增量学习密度决策函数分类号:TP391检索【钔、演化【、标注[6]等领域得到了广泛应用。1引言(2)在大规模样本分类研究上,超球支持向量机文本分类是信息过滤和推荐等系统服务实现的基(Hyper-SphereSuppo~VectorMachine,HS-SVM)作为础;当前社会网络环境要求更加准确

3、地进行信息资源一种球面结构支持向量机,采用计算一个能包含某个的分类和关联,在给定类别的情况下,根据训练集推类全部样本在内的最近超球面的方法,通过寻找一个导出分类的判别公式和判别规则,构造文本分类器判最小包围球(MinimumEnclosingBall,MEB)问题取代定未知文本的类别,帮助系统和用户发现关联或相似SVM的二次规划问题,明显降低了整体复杂度且提升的资源。了分类速度和精度,能够处理大规模的文本分类且易(1)社会网络环境下文本信息的片段化、动态化于扩充,是一种比SVM更快和效果更好的分类算法

4、【7]。趋势越来越明显,结构复杂且语义内容丰富,传统的如Strack等研究了大规模文本分类中的超球支持向量基于关键词或主题词的文本向量建模方式已不再适机算法实现问题J,结合最小包围球方法、最近点解决用。而潜在狄利克雷分~(LatentDirichletAllocation,算法和概率技术,在大规模甚至超大规模数据集上的LDA)主题模型【l】是一种产生式的三层贝叶斯概率主实验发现,超球支持向量机分类算法在速度和准确性题模型,将文本内容表示为潜在主题的有限混合,能上效果较好。Chau等通过JarvisMa

5、rch算法寻找不可够最大程度地表示文本中所蕴含的语义关系;同时,分割超球点的最佳凸面,从而提高分类的准确性和速具有很好的先验概率假设,其参数数量不会随着文本。Yun等指出随着分类训练样本数量的变化,其超数量的增长而线性增长,泛化能力强,推理算法便捷球半径及其分布将会发生变化,应对其进行动态加权高效及展示效果好,在文本主题提取、分类聚类、处理,以保证最终的分类效果【1。’。艾青等针对多主题收稿日期:2013.12—04收修改稿日期:2014.02—11本文系教育部人文社会科学青年基金项目“社会网络环境下

6、信息内容主题挖掘与语义分类研究”(项目编号:13YJC870008)~1家自然科学基金青年基金项目“社会网络环境下基于用户一资源关联的信息推荐研究(项目编号:71303178)的研究成果之一。_■现代图书情报技术总第250期2014年第9期分类问题,基于超球支持向量机和样本与超球的隶属处于任何一个文本超球类中时,通过比较测试文本到度计算,判定文本所隶属的主题⋯]。王德成和林辉通各个超球类的距离,将其归入距离最近的超球类中f1。过构建包含少类样本的最小封闭超球体,通过样本因此,文本类簇采用一个最小包围球

7、来界定,文本簇与球心的距离进行欠抽样,以此实现训练集分类的不同所形成的最小超球也不同。在传统的HS.SVM分平衡【]。蒋华和戚玉顺引入主动学习方法,将球结构类算法中,实际上每一超球类中边界上的点就是所得支持向量机用于多标签分类,采用样本近邻方法更新到的支持向量,每个超球类的半径也就被确定下来,分类器,实现较少样本的有效分类【】3'Hl。当该类有新文本加入或者新加入的文本被该超球类包超球支持向量机因其在大规模样本分类上的明显围时,该超球类的支持向量保持不变[161o实际上一一,}当有优势,成为研究者进行

8、文本分类及其相关应用的热门新文本加入超球类时,类别的总体特征发生改变,即分类算法。但是,在分类过程中文本超球类会随着文该超球类中的支持向量发生了改变。因此,本文利用本分类数量的增加而不断变化,需要不断改变超球类增量学习方法[实现超球类支持向量的动态改变。的支持向量;其次,文本超球类并不是完全独立的,传统的批量学习方法为一种一次性学习过程,即存在语义或主题上的关联,虽然针对这一特殊情况无当得到所有训练样本并学习之后,学习过程便结束;法完全准确划分其类别,但

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。