资源描述:
《稀疏表示编码模型及其在文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、.稀疏表示编码模型及其在文本分类中的应用TheSparseRepresentationCodingModelandItsApplicationinTextCategorization学科专业:软件工程研究生:彭烁指导教师:孟昭鹏教授天津大学软件学院二零一五年十二月摘要为了达到对数量众多的文本进行高效组织和管理的目的,使用计算机对文本做分析和聚类应运而生,文本自动分类如今已成为了数据挖掘领域一个重要的研究方向。目前,文本分类技术已经在全球多个领域,例如邮件分类,信息检索,新闻分发,数字图书馆等,得到了广泛发展,越来越多的文本分类方法被发掘出来。在理论
2、和实践方面,对文本分类技术的探究还有很大的发展空间。本文在分析和总结文本预处理、文本特征提取、分类方法和分类性能评价的基础上,对文本分类方法进行了着重研究,提出了一种新的基于稀疏表示的文本分类方法,实验结果证明本文提出的基于稀疏表示的文本分类方法,具有良好的效果。本文主要的研究工作如下:(1)对学习样本进行中文分词和关键词提取。作为文本分析的前提,该步骤是文本预处理中的关键一环。中文分词的合理性和关键词提取的准确性直接决定了文本分类实验的结果。(2)提取文本关键特征。使用统计学方法,评估文本关键词对于其对应类别文本的重要程度,对关键词进行进一步筛选
3、,达到降维的效果,进一步提取文本的关键特征。(3)生成基于学习样本的稀疏表示编码字典。计算文本关键词在各类别学习样本的出现频率,组成关键词矩阵。经各类别关键特征线性组合后,生成基于关键词的稀疏表示编码字典。(4)对文本进行分类。使用稀疏表示编码算法对测试样本进行处理,建立分类模型对文本进行分类实验。实验结果证明利用稀疏表示编码算法进行文本分类具有很高的效率与准度。关键词:自然语言处理,稀疏表示编码,特征提取,文本分类ABSTRACTInordertoachievethepurposeofalargenumberoftextsefficientorg
4、anizationandmanagement,theuseofacomputertodotextanalysisandclusteremerged,andnowhasbecomeanimportantfieldofdataminingresearchdirections.Currently,textcategorizationtechnologyhasbeeninanumberofareasworldwide,suchase-mailclassification,informationretrieval,newsdistribution,digit
5、allibrary,hasbeenwidelydeveloped,moreandmoretextclassificationmethodsareexcavated.Intheoryandpractice,fortextcategorizationtechnologytoexplorethereisstillmuchroomfordevelopment.Basedontheanalyzingandsummarizingtextpreprocessing,textfeatureextraction,andcategorizationmethodandc
6、ategorizationperformance-basedevaluation,textcategorizationmethodsarefocusedonresearch.Thestudywillproposeanewtextcategorizationmethodbasedontextsparserepresentation,experimentalresultsshowthattheproposedtextcategorizationmethodbasedonsparserepresentation,withgoodresults.Thema
7、inresearchworksareasfollows:(1)ThestudysampleChinesewordandkeywordextraction.Asaprerequisitefortextanalysis,thepretreatmentstepisthetextakeyring.Chinesewordaccuracyandreasonablenessofthekeywordextractiondirectlydeterminetheresultoftextcategorizationexperiments.(2)Extractthetex
8、tkeyfeatures.Byuseofstatisticalmethods,thestudywillevaluatete