稀疏表示编码模型及其在文本分类中的应用

稀疏表示编码模型及其在文本分类中的应用

ID:35093963

大小:3.13 MB

页数:61页

时间:2019-03-17

稀疏表示编码模型及其在文本分类中的应用_第1页
稀疏表示编码模型及其在文本分类中的应用_第2页
稀疏表示编码模型及其在文本分类中的应用_第3页
稀疏表示编码模型及其在文本分类中的应用_第4页
稀疏表示编码模型及其在文本分类中的应用_第5页
资源描述:

《稀疏表示编码模型及其在文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.稀疏表示编码模型及其在文本分类中的应用TheSparseRepresentationCodingModelandItsApplicationinTextCategorization学科专业:软件工程研究生:彭烁指导教师:孟昭鹏教授天津大学软件学院二零一五年十二月摘要为了达到对数量众多的文本进行高效组织和管理的目的,使用计算机对文本做分析和聚类应运而生,文本自动分类如今已成为了数据挖掘领域一个重要的研究方向。目前,文本分类技术已经在全球多个领域,例如邮件分类,信息检索,新闻分发,数字图书馆等,得到了广泛发展,越来越多的文本分类方法被发掘出来。在理论

2、和实践方面,对文本分类技术的探究还有很大的发展空间。本文在分析和总结文本预处理、文本特征提取、分类方法和分类性能评价的基础上,对文本分类方法进行了着重研究,提出了一种新的基于稀疏表示的文本分类方法,实验结果证明本文提出的基于稀疏表示的文本分类方法,具有良好的效果。本文主要的研究工作如下:(1)对学习样本进行中文分词和关键词提取。作为文本分析的前提,该步骤是文本预处理中的关键一环。中文分词的合理性和关键词提取的准确性直接决定了文本分类实验的结果。(2)提取文本关键特征。使用统计学方法,评估文本关键词对于其对应类别文本的重要程度,对关键词进行进一步筛选

3、,达到降维的效果,进一步提取文本的关键特征。(3)生成基于学习样本的稀疏表示编码字典。计算文本关键词在各类别学习样本的出现频率,组成关键词矩阵。经各类别关键特征线性组合后,生成基于关键词的稀疏表示编码字典。(4)对文本进行分类。使用稀疏表示编码算法对测试样本进行处理,建立分类模型对文本进行分类实验。实验结果证明利用稀疏表示编码算法进行文本分类具有很高的效率与准度。关键词:自然语言处理,稀疏表示编码,特征提取,文本分类ABSTRACTInordertoachievethepurposeofalargenumberoftextsefficientorg

4、anizationandmanagement,theuseofacomputertodotextanalysisandclusteremerged,andnowhasbecomeanimportantfieldofdataminingresearchdirections.Currently,textcategorizationtechnologyhasbeeninanumberofareasworldwide,suchase-mailclassification,informationretrieval,newsdistribution,digit

5、allibrary,hasbeenwidelydeveloped,moreandmoretextclassificationmethodsareexcavated.Intheoryandpractice,fortextcategorizationtechnologytoexplorethereisstillmuchroomfordevelopment.Basedontheanalyzingandsummarizingtextpreprocessing,textfeatureextraction,andcategorizationmethodandc

6、ategorizationperformance-basedevaluation,textcategorizationmethodsarefocusedonresearch.Thestudywillproposeanewtextcategorizationmethodbasedontextsparserepresentation,experimentalresultsshowthattheproposedtextcategorizationmethodbasedonsparserepresentation,withgoodresults.Thema

7、inresearchworksareasfollows:(1)ThestudysampleChinesewordandkeywordextraction.Asaprerequisitefortextanalysis,thepretreatmentstepisthetextakeyring.Chinesewordaccuracyandreasonablenessofthekeywordextractiondirectlydeterminetheresultoftextcategorizationexperiments.(2)Extractthetex

8、tkeyfeatures.Byuseofstatisticalmethods,thestudywillevaluatete

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。