基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf

基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf

ID:57763449

大小:295.82 KB

页数:5页

时间:2020-03-30

基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf_第1页
基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf_第2页
基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf_第3页
基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf_第4页
基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf_第5页
资源描述:

《基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、>>第54卷第10期2010年5月*基于潜在语义分析和改进的HS-SVM的文本分类模型研究张玉峰何超武汉大学信息资源研究中心武汉430072〔摘要〕为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法—基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。〔关键词

2、〕文本分类潜在语义分析改进的超球支持向量机重叠区域文本〔分类号〕G350ResearchofTextClassificationModelBasedonLatentSemanticAnalysisandImprovedofHS-SVMZhangYufengHeChaoCenterforStudiesofInformationResourcesofWuhanUniversity,Wuhan430072〔Abstract〕Atextclassificationmodel,whichisbasedon

3、LatentSemanticAnalysisandImprovedofHyper-sphereSupportVectorMa-chine,isproposedinordertoimprovetheaccuracyandefficiencyoftextclassification.Usingthelatentsemanticanalysisforfeatureextractioninthismodel,theaffectofsynonymyandpolysemyintextrepresentati

4、onprocessiseliminatedandthedimensionoftextvec-torisreduced.Anewapproachtodecisionmaking,whichisbasedontheintensity,isdesignedforthetextclassificationofultra-over-lappingregionsintheball.Experimentalresultsshowthatthemodelwillgiveagoodclassificationre

5、sultswhenthenumberoftheclas-sesissmall.Theimprovedalgorithmiseffectiveandfeasible.〔Keywords〕textclassificationlatentsemanticanalysisimprovedhyper-spheresupportvectormachinetextinoverlappingregions分析、信息过滤、情报检索以及分类聚类等领域得到了1引言广泛的应用。在文本分类方面,文献[1]将LSA与Ko-

6、honen相结合,文献[2]将LSA与BPNN相结合,文献文本分类作为信息过滤、信息检索、数字图书馆和[3]将LSA与KNN相结合,文献[4]将LSA与SVM相数据挖掘等领域的技术基础,能够在给定类别的条件结合,都获得了较好的分类效果。但Kohonen训练速下,根据每个类别的训练样本,推出该类别的判别公式度慢、分类精度低,KNN对训练集要求高,BPNN收敛和判别规则,并用其判定未知文本所属的类别,从而帮速度慢、容易陷入局部极小值,SVM比其他的机器学助用户有效地管理和利用信息资源。习算法表现出更

7、高的分类精度,但在大规模数据上收潜在语义分析(LatentSemanticAnalysis,LSA)是敛速度较慢、训练时间长及不易扩充。S.Deerwester等人提出的用于知识获取和表示的计算超球支持向量机(Hyper-sphereSupportVectorMa-[5]理论和方法。它使用统计计算的方法对大量的文本集chine,HS-SVM)是最近机器学习领域发展起来的一进行分析,提取词与词之间潜在的语义结构,并用这种种比SVM更快的机器学习方法。它的基本思想是将潜在的语义结构来表示词和文本,消

8、除了同义词和多SVM的二次规划问题转化为最小包围球(Minimum义词之间的相关性、降低了文本向量的维度、提高了计EnclosingBall,MEB)问题,通过求解MEB得到SVM[6]算效率。作为一种对传统向量空间模型(VectorSpace的解,从而显著地降低了二次规划的复杂程度,所以Model,VSM)的改进方法,LSA在自然语言理解、文本其可处理样本的规模大、算法的复杂度小。当增加新*本文系教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目编号:08

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。