基于潜在语义分析和HS_SVM的文本分类模型研究.pdf

基于潜在语义分析和HS_SVM的文本分类模型研究.pdf

ID:52768155

大小:400.75 KB

页数:4页

时间:2020-03-30

基于潜在语义分析和HS_SVM的文本分类模型研究.pdf_第1页
基于潜在语义分析和HS_SVM的文本分类模型研究.pdf_第2页
基于潜在语义分析和HS_SVM的文本分类模型研究.pdf_第3页
基于潜在语义分析和HS_SVM的文本分类模型研究.pdf_第4页
资源描述:

《基于潜在语义分析和HS_SVM的文本分类模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、È信息系统ITA张玉峰,何超(武汉大学信息资源研究中心,湖北武汉430072)*基于潜在语义分析和HSSVM的文本分类模型研究摘要:为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型。针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类。实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间。关键词:文本分类;潜在语义分析;支持

2、向量机Abstract:AtextcategorizationmodelbasedonLatentSemanticAnalysisandHypersphereSupportVectorMachine(HSSVM)isproposedtoimprovetheaccuracyandefficiencyoftextcategorizationAstheconvergencerateofusingSVMtocategorizethelargescaletextisrelativelyslow,theHypersphereSupportVectorMach

3、ineisappliedtotextcategorizationandtheHypersphereSupportVectorMachineClassificationLearningAlgorithmbasedonincrementallearningisappliedtotrainingandcategorizationExperimentsshowthattheHypersphereSupportVectorMachineisanefficientsolutiontotheSVMproblem,andhasthesameaccuracyasth

4、eSVMinthetextcategorizationapplications,butsignificantlyreducesthecomplexityofthemodelandthetrainingtimeKeywords:textcategorization;latentsemanticanalysis;supportvectormachine文本分类(TextCategorization)作为信息过滤、信息(自组织特征映射神经网络)相结合,文献[6]将LSA与检索、数字图书馆、邮件分类和数据挖掘等领域的技术基BPNN(BackPropagatio

5、nNeuralNetwork)相结合,文献础,能够在给定类别的条件下,根据每个类别的训练样[7]将LSA与KNN(KNearestNeighbour)相结合,文献[1]本,推出该类别的判别公式和判别规则。而后当遇到未[8]将LSA与SVM(SupportVectorMachine)相结合,都知类别的文本时,根据判别公式和判别规则,确定此文本获得了较好的分类效果。但Kohonen网络训练速度慢、分所属的类别,从而帮助用户有效地管理和利用信息类精度低,BPNN的收敛速度慢、容易陷入局部极小值,[2]资源。KNN对训练集要求高、空间复杂度高和计算量大,SVM潜在

6、语义分析(LatentSemanticAnalysis,LSA)是比其他的机器学习算法表现出更高的分类精度,但在大规SDeerwester等人提出的一种用于知识获取和表示的计算模数据上存在收敛速度较慢、训练时间长及不易扩充等理论和方法,它使用统计计算的方法对大量的文本集进行问题。分析,从而提取出词与词之间潜在的语义结构,并用这种超球支持向量机(HypersphereSupportVectorMa潜在的语义结构来表示词和文本,达到消除同义词和多义chine,HSSVM)是最近机器学习领域发展起来的一种分[9]词之间的相关性和简化文本向量实现降维的目的,

7、提高了类学习近似算法,是一种比SVM更快的机器学习方法。[3]球结构支持向量机与平面支持向量机有本质的区别:平面计算效率。作为一种对传统向量空间模型(VectorSpaceMode,l型支持向量机的目标是寻找能将两类样本分开的由支持向[4]量所支撑的最优超平面,而超球支持向量机是寻找一个能VSM)的改进方法,LSA在自然语言理解、文本分析、信息过滤、情报检索以及分类聚类等领域得到了广泛的应包含某类全部样本在内的由支持向量所支撑的最紧超球用。在文本分类方面,文献[5]将LSA与Kohonen网络面。它的基本思想是将SVM的二次规划问题转化为一个最小包围球(Mi

8、nimumEnclosingBal,lMEB)问题,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。