浅谈基于lda模型的文本分类研究

浅谈基于lda模型的文本分类研究

ID:35134443

大小:5.35 MB

页数:65页

时间:2019-03-19

浅谈基于lda模型的文本分类研究_第1页
浅谈基于lda模型的文本分类研究_第2页
浅谈基于lda模型的文本分类研究_第3页
浅谈基于lda模型的文本分类研究_第4页
浅谈基于lda模型的文本分类研究_第5页
资源描述:

《浅谈基于lda模型的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级学号0708120691活矫争了,去军硕士学位论文学科名称:学科门类:指导教师:申请日期:独创性声明本人所呈交的学位论文是在导师指导下进行的研究工作及取得的成果。尽我所知,除特别加以标注的地方外,论文中不包含其他人的研究成果。与我一同工作的同志对本文的研究工作和成果的任何贡献均已在论文中作了明确的说明并已致谢。本论文及其相关资料若有不实之处,由本人承担一切相关责任论文作者签名:彻!d年咔月‘日学位论文使用授权声明本人-车喜涯一在导师的指导下创作完成学位论文的知识产权归西安理工大学所有,本人今后在使用或发表该论文涉及的研究内容时,会注明西安理

2、工大学。本人作为学位论文著作权拥有者,同意授权西安理工大学拥有学位论文的部分使用权(在以下“口”中标明,同意的划“矿”,不同意的划“x”),即:本人提交的印刷版和电子版学位论文,已学校可以采用影印、缩印或其他复制手段保存;划学校可以将学位论文的全部内容编入公开的数据库进行检索;劝学校可以将学位论文的摘要编入公开的数据库进行检索;喇学校可以将公开的学位论文或解密后的学位论文作为资料在图书馆、资料室等场所及校园网上供校内师生阅读、浏览。本人学位论文全部或部分内容的公布(包括刊登)授权西安理工大学研究生学院办理。(保密的学位论文在解密后,适用本授权说明)论文作者

3、签名:导师签名:林年牙月了日摘要论文题目:基于LDA模型的文本分类研究学科专业:计算机应用技术研究生:宋志理签名:指导教师:姚全珠教授签名:摘要文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。它是信息检索、机器学习和自然语言处理的热点和关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域。文本分类系统主要包括文本表示、预处理、特征降维、分类方法和效果评估5个部分。本文应用LDA(LatentDirichletAllocation)概率增长模型,对文档集进行主题建模。克服了采用特征抽取方法带来的分

4、类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题。本文主要工作及创新点在于:1.针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,本文提出了一种基于LDA模型的文本分类方法。在判别模型SVM框架中,应用LDA(LateniDirchletAlloeation)概率增长模型,对文档集进行主题建模。利用MCMC(MarkovehainMonteCarl。)中的Gibbs抽样进行推理,间接计算模型参数,获取文本在主题集上的概率分布。在文档集的隐含主题一文本矩阵上训练SVM(SupportVectorMachine),构造文本

5、分类器。在中英文语料库上进行分类实验,验证基于LDA模型的分类方法的有效性和优越性。2.针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题。本文参考基于密度的聚类算法DBSCAN中计算样本密度的思想来度量主题之间的相关性,提出了基于DBSCAN的最优主题数选择算法。在本文搭建的自动文本分类系统的实验平台上,将分别采用贝叶斯理论的标准方法和基于DBSCAN的最优主题数选择方法,寻找语料库的LDA模型的最优主题数T。实验结果表明,与贝叶斯中标准方法和基于HDP的最优主题数选择方法相比,本文提出的基于DBSCAN的最优主题数选择方法可以在不需要人

6、工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构。关键词:文本分类;LDA模型;Gibbs抽样;模型选择AbstraCITitle:ResearehOn飞xtCategorizationBasedonLDAMajor:ComPuterAPPlication飞ehnologyNamG:Zhi!1SONGS,gna,u『e:边上钟.SuPervisor:Prof.QuanzhuYAO5ignature:AbstraCtAutomatietextelassifieation15researchfoeusandeoreteehnologyofinfo

7、rmationretrievalanddataminingfield.ltreeeivedextensive袱entionandraPiddeveloPmentinrecentyears.lt15oneofthehotandkeytechnologiesofinformationretrieval,machineleamingandnaturallanguageProeessing.Inrecentyears,PeoPlebegantoaPPlymachineleamingtothefieldofautomatietexteategoriZation.Te

8、xtelassifieationsystemineludestex

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。